Index

# -*- coding: utf-8 -*-, 1
Anweisung, 2

ASCII, 3
Attribut, 4
Ausdruck, 5
codecs.open(), 6

Datentyp, 7

    str, 8
    unicode, 9
Doc-String, 10
Expression, 11

Formatierungsausdruck, 12

    *, 13
    %%, 14
    %d, 15
    %f, 16
    %s, 17
Funktionsdefinition, 18
Generatorausdruck, 19

globals(), 20
group(), 21
Häufigkeitsverteilung, bedingt, 22

Häufigkeitsverteilung, bivariat, 23
Häufigkeitsverteilung, univariat, 24
import, 25

ISO-8859-1, 26
issubclass(), 27
Iteration, 28
Klassen, 29

Korpus, 30
Korpus, balanciert, 31
Korpus, opportunistisch, 32
Lambda-Ausdruck, 33

Latin-1, 34
Listenkomprehension, 35, 36
locals(), 37
Methode

    öffentlich, 38
    privat, 39
Methodenaufruf, 40
Namensraum, 41

next(), 42

nltk.clean_html(), 43
nltk.ConditionalFreqDist, 44
nltk.corpus.brown, 45
nltk.corpus.gutenberg, 46
nltk.corpus.stopwords, 47
nltk.corpus.WordListCorpusReader, 48
nltk.download(), 49
nltk.FreqDist, 50
nltk.Text.findall(), 51
Normalisierung, 52
object, 53

Objekt, 54
random.sample(), 55

re.findall(), 56, 57
re.search(), 58
re.sub(), 59
Rechenzeit, 60
Regex-Flag
    (?u), 61
    (?x), 62
return, 63
set().difference(), 64

Skopus, 65
Statement, 66
str, 67
str.find, 68
str.rfind, 69
str.translate(), 70
String-Literal, 71, 72
timeit, 73

Tokenisierung
    nltk.word_tokenize(), 74
    nltk.wordpunct_tokenize(), 75
    Reguläre Ausdrücke, 76
    Satzsegmentierung, 77
    Wortsegmentierung, 78
unicode, 79

unicodedata, 80
unicodedata.cat(), 81
urllib, 82
urlopen(), 83
UTF, 84
Wortlisten, 85