[ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ]
Neben den bereits genannten Problemen bereiten die folgenden Aspekte notorische Schwierigkeiten:
Die ersten zwei Fälle sind recht offensichtlich (ihre Behandlung ist es nicht). Wir gehen nur auf den letzten näher ein. Einfache Lösungen können wir aber nicht vorstellen: Bislang existieren noch keine optimalen Algorithmen für Behandlung dieser Fälle.
Auslassungen in koordinierten Strukturen im Deutschen, wie z.B. “Ein- und Ausgang”, sind ein besonders unangenehmes (aber häufig vorkommendes) Problem. Dies sind echt elliptische Konstruktionen, und ein wirklich guter Tokeniser für das Deutsche müsste die vollständigen Formen rekonstruieren. Leider sind dabei aber oft mehrere Rekonstruktionen denkbar:
Dass derartige Überlegungen sehr ressourcen-intensiv sind (sie verlangen nach komplexen Algorithmen und daher viel Rechenzeit und erfordern ein umfassendes Lexikon), ist klar. Wie genau solche Algorithmen aussehen sollten, ist weniger klar.
Lösung: Der Kern der Tokenisierung besteht in der Durchführung von einzelnen Isolationsoperationen in einer exakt spezifizierten Abfolge mit nachfolgendem Trennen bei den verbleibenden “white space characters”.
[ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ]