Haufigkeitsverteilungen

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ]

3.2
Häufigkeitsverteilungen

3.2.1
Univariat

Häufigkeitsverteilungen: Vorkommen aufsummieren

pict

Allgemein: Häufigkeit der Items einer variierenden Grösse (eine statistische Variable) auszählen
NLTK-Klasse nltk.FreqDist umfasst geeignete Methoden für Frequenzdistributionen von Wörtern:
Erstellen von Wortdistributionen aus Listen von Strings (aka. Texte)
Tabellarisches und graphisches Darstellen

Funktionen der Klasse nltk.FreqDist

pict

Anwendung der Klasse nltk.FreqDist

Berechnen der häufigsten längsten Wörter → 23

import nltk
from nltk.corpus import gutenberg

emma_words = gutenberg.words(’austen-emma.txt’)

emma_fd=nltk.FreqDist(emma_words)

# Finde alle Wörter für die gilt:
# - mehr als 15 Buchstaben und
# - kommen mindestens 10 mal vor

wl = sorted([w for w in emma_fd.keys()
if len(w)>10 and emma_fd[w]> 7])

3.2.2
Bivariat

Bivariate (bedingte) Häufigkeitsverteilungen

pict

Gemeinsame Häufigkeit der Items von 2 variierenden Grössen (zweier statistischer Variable) auszählen

NLTK-Klasse nltk.ConditionalFreqDist umfasst geeignete Methoden für Frequenzdistributionen von Paaren von Items
Eine bedingte Häufigkeitsverteilung besteht aus 2 einfachen Häufigkeitsverteilungen.
Sprechweise: Die eine Variable heisst in NLTK Bedingung (condition), die andere Ereignis (event, sample)
Beispiel: Für die 15 Kategorien im Brownkorpus ergeben sich 15 Bedingungen mit insgesamt 1’161’192 Events (Wörtern).

Bedingte Häufigkeiten berechnen
Modalverben in Abhängigkeit von Textkategorien → 24

import nltk
from nltk.corpus import brown

cfd = nltk.ConditionalFreqDist([
   (genre, word)
   for genre in brown.categories()
   for word in brown.words(categories=genre)])

genres = [’news’, ’religion’, ’hobbies’,
      ’science_fiction’, ’romance’, ’humor’]

modals = [’can’, ’could’, ’may’, ’might’, ’must’, ’will’]

cfd.tabulate(conditions=genres, samples=modals)

Funktionen der Klasse nltk.ConditionalFreqDist

pict

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ]

3.2 Häufigkeitsverteilungen

3.2.1 Univariat

3.2.2 Bivariat

3.2
Häufigkeitsverteilungen

3.2.1
Univariat

3.2.2
Bivariat