Zusammenfassung
Die Probleme, die
ein Tokenizer zu bewältigen hat, sind zahlreich:
1. Die Wortgrenzen
Der Leerschlag als Worttrenner ist ungenügend, da er einerseits nicht unbedingt zwischen zwei Worten stehen muss (z.B. die Klitisierung des franz. Artikels vor Substantiven mit einlautendem Vokal, wie in "l’image", wird in der geschriebenen Sprache mittels eines Apostrophes repräsentiert) oder andererseits keine Wortgrenze markiert (z.B. bei englischen Komposita, wie in "teddy bear").
Zeichen, welche nicht
Bestandteil unseres Alphabets sind, können als Worttrenner oder Wortbestandteile
auftreten (z.B.: Zahlen, Sonderzeichen, Symbole).
2. Normalisierungen
Unter Umständen
muss ein Tokenizer Eingaben für einen späteren Verwendungszweck
standardisieren (Zahlwörter, Abkürzungen, Sonderzeichen, Daten
etc.) oder rekonstruieren (Auslassungen) können.
3. Satzgrenzen
Die Erkennung der
Satzanfänge wie auch der Satzenden ist nicht trivial. Im ersten Fall
bilden die Grossbuchstaben keine eindeutigen Markierungen (Eigennamen,
Titel etc.), im zweiten sind es die Satzzeichen (Punkte in Abkürzungen,
Auslassungspunkte, Ordinalpunkte etc.).
4. Textgrenzen
Die Formatierungen,
welche die Textgrenzen bezeichnen, müssen erkannt und gegebenenfalls
standardisiert werden.