tokeniser

Zusammenfassung

Die Probleme, die ein Tokenizer zu bewältigen hat, sind zahlreich:

1. Die Wortgrenzen

Der Leerschlag als Worttrenner ist ungenügend, da er einerseits nicht unbedingt zwischen zwei Worten stehen muss (z.B. die Klitisierung des franz. Artikels vor Substantiven mit einlautendem Vokal, wie in "l’image", wird in der geschriebenen Sprache mittels eines Apostrophes repräsentiert) oder andererseits keine Wortgrenze markiert (z.B. bei englischen Komposita, wie in "teddy bear").

Zeichen, welche nicht Bestandteil unseres Alphabets sind, können als Worttrenner oder Wortbestandteile auftreten (z.B.: Zahlen, Sonderzeichen, Symbole).

2. Normalisierungen

Unter Umständen muss ein Tokenizer Eingaben für einen späteren Verwendungszweck standardisieren (Zahlwörter, Abkürzungen, Sonderzeichen, Daten etc.) oder rekonstruieren (Auslassungen) können.

3. Satzgrenzen

Die Erkennung der Satzanfänge wie auch der Satzenden ist nicht trivial. Im ersten Fall bilden die Grossbuchstaben keine eindeutigen Markierungen (Eigennamen, Titel etc.), im zweiten sind es die Satzzeichen (Punkte in Abkürzungen, Auslassungspunkte, Ordinalpunkte etc.).

4. Textgrenzen

Die Formatierungen, welche die Textgrenzen bezeichnen, müssen erkannt und gegebenenfalls standardisiert werden.

Zurück zum Tokenizer Zurück zur Startseite