Das erste Modul unseres Wort-für-Wort-Übersetzungsprogrammes
ist dafür verantwortlich, dass der Input so aufbereitet wird, dass
ein Lexical-look-up überhaupt möglich wird. Es müssen also
textuelle Einheiten, sogenannte Tokens, gefunden werden.
Der Begriff des Tokens nimmt Bezug auf die
linguistische Type-Token-Relation, welche dem Verhältnis zwischen
langue und parole von de Saussure entspricht. Type steht für ein Muster,
eine zugrundeliegende abstrakte Einheit, davon wird das Token unterschieden,
welches die konkrete Verwendung in einer sprachlichen Äusserung bezeichnet.
Im Kontext der maschinellen Übersetzung ist der Begriff des Tokens
aber ausgeweitet, so werden nicht nur die realisierten textuellen Einheiten
("Wörter"), sondern auch abstrakte Zeichen (z.B.: Satzzeichen) als
Tokens aufgefasst.
Im Script zur Einführungsvorlesung
von Prof. Dr. M. Hess findet sich im Kapitel 3.1.1.1.1 "Tokenizer" (S.
22ff) eine ausführliche Einführung in diese Materie. Die folgende
Zusammenfassung ersetzt dieses Kapitel
nicht, sondern liefert höchstens eine Erinnerungshilfe.
Hier finden sich eine Anleitung sowie Übungsbeispiele
zum Tokenizer, welche zu eignen Experimenten anregen sollten. Laboratorium