3.2
 Häufigkeitsverteilungen

3.2.1
 Univariat

Häufigkeitsverteilungen: Vorkommen aufsummieren 

pict

Funktionen der Klasse nltk.FreqDist

pict

Anwendung der Klasse nltk.FreqDist

Berechnen der häufigsten längsten Wörter  23

 
import nltk 
from nltk.corpus import gutenberg 
 
emma_words = gutenberg.words(austen-emma.txt) 
 
emma_fd=nltk.FreqDist(emma_words) 
 
# Finde alle Wörter für die gilt: 
# - mehr als 15 Buchstaben und 
# - kommen mindestens 10 mal vor 
 
wl = sorted([w for w in emma_fd.keys() 
         if len(w)>10 and emma_fd[w]> 7])

3.2.2
 Bivariat

Bivariate (bedingte) Häufigkeitsverteilungen 

pict

Gemeinsame Häufigkeit der Items von 2 variierenden Grössen (zweier statistischer Variable) auszählen

Bedingte Häufigkeiten berechnen 
Modalverben in Abhängigkeit von Textkategorien  24

 
import nltk 
from nltk.corpus import brown 
 
cfd = nltk.ConditionalFreqDist([ 
   (genre, word) 
   for genre in brown.categories() 
   for word in brown.words(categories=genre)]) 
 
genres = [news, religion, hobbies, 
      science_fiction, romance, humor] 
 
modals = [can, could, may, might, must, will] 
 
cfd.tabulate(conditions=genres, samples=modals)

Funktionen der Klasse nltk.ConditionalFreqDist

pict