[ Weiter ] [ Seitenende ] [ Überkapitel ]
Definition 4.1.1 (Wortlisten). Die einfachste Form von Lexika sind Wortlisten . Als Datei typischerweise 1 Wort pro Zeile und sortiert.
Rechnen mit Stoppwortlisten
Was berechnet foo()? Was wäre ein guter Funktionsname? → 31
Anteil normalisierter Inhaltswörter eines Texts
Effizientes Buchstabenmodifizieren mit Stringmethode translate()
Berechnen eines Kleinschreibungstabelle
Achtung: Die Translate-Funktion macht dasselbe auf Strings wie der UNIX-Befehl tr auf Dateien.Anteil normalisierter Inhaltswörter eines Texts
Normalisierungsfunktion definieren mit einem Doc-String → 32
Doc-Strings
Die Python-Funktion help(normalize_str) zeigt den Doc-String an. Das 1. Stringliteral in einer Funktionsdefinition wird als Dokumentation verwendet.
Anteil normalisierter Inhaltswörter eines Texts
Berechne den Anteil der Inhaltswörter (ohne Interpunktion!), welche nicht in einer Stoppwortliste
sind.
Anteilsfunktion
Anteilsfunktion auf Brown-Kategorien anwenden
Einlesen von Non-ASCII-Wortlisten
Enkodierungsprobleme mit Standardeinlesefunktion von NLTK
Achtung: Bug in aktuellem NLTK
Einlesen von UTF-8-kodierten Stoppwortlisten
Einlesen von deutschen Stoppwörtern als unicode Strings → 33
Wichtigste Argumente des Konstruktors für Wortlistenkorpora → 34
Rohtext-Korpora im UTF-8-Format einlesen
Einlesen Rohtext-Korpora als unicode Strings → 35
Strukturierte Lexikoneinträge
CMU besteht aus Paaren von Lemma und Listen von phonetischen Kodes. Filtern von Lexikoneinträgen → 36
[ Weiter ] [ Seitenbeginn ] [ Überkapitel ]