[ Weiter ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]
Grundproblem: Vom Zeichenstrom zur Folge von Tokens
Rohdaten
Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge von Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.
Token: Einheit der Textsegementierung
Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse.
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
Was ist ein Zeichen auf dem Computer?
Was ist ein Zeichen auf dem Computer?
Verlustbehaftete Konversion
Nebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung durch “Transliteration” durchführen.
Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:
Typische Beispiele für Tokenisierer
Tokenisierung aus einem Zeichenstrom oder einer Zeichenkette in eine Datenstruktur
einer Programmiersprache
Beispiel 5.1.1 (Covingtons Tokenizer [Covington 2003]).
Tokenisierer in Prolog für Englisch: Konsumiere eine Textdatei oder eine Benutzereingabe und
produziere daraus eine Prolog-Liste.
Typische Beispiele für Tokenisierer
Tokenisierung mit rein textuellem Output: Lese eine Textdatei ein und erzeuge daraus
Beispiel 5.1.2 (Schmids Tokenizer im UNIX-Stil [Schmid 2006]).
Sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei
Typische Beispiele für Tokenisierer
Auf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie PERL, Python
oder Xerox Finite State Tools, welche einen einfachen Umgang mit regulären Ausdrücken
erlauben.
Definition 5.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck ist eine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zu beschreiben.
Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchen-und-Ersetzen und Segmentieren von Zeichenketten.
Einführung in reguläre Ausdrücke
Z.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex
Typische Beispiele für Tokenisierer
Tokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.
markup language).
Beispiel 5.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]).
Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.
[ Weiter ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]