tokeniser

Der Tokenizer

Einleitung

Das erste Modul unseres Wort-für-Wort-Übersetzungsprogrammes ist dafür verantwortlich, dass der Input so aufbereitet wird, dass ein Lexical-look-up überhaupt möglich wird. Es müssen also textuelle Einheiten, sogenannte Tokens, gefunden werden.

Eine Definition von Token:

Der Begriff des Tokens nimmt Bezug auf die linguistische Type-Token-Relation, welche dem Verhältnis zwischen langue und parole von de Saussure entspricht. Type steht für ein Muster, eine zugrundeliegende abstrakte Einheit, davon wird das Token unterschieden, welches die konkrete Verwendung in einer sprachlichen Äusserung bezeichnet. Im Kontext der maschinellen Übersetzung ist der Begriff des Tokens aber ausgeweitet, so werden nicht nur die realisierten textuellen Einheiten ("Wörter"), sondern auch abstrakte Zeichen (z.B.: Satzzeichen) als Tokens aufgefasst.

Zusammenfassung

Im Script zur Einführungsvorlesung von Prof. Dr. M. Hess findet sich im Kapitel 3.1.1.1.1 "Tokenizer" (S. 22ff) eine ausführliche Einführung in diese Materie. Die folgende Zusammenfassung ersetzt dieses Kapitel nicht, sondern liefert höchstens eine Erinnerungshilfe.

Laboratorium

Hier finden sich eine Anleitung sowie Übungsbeispiele zum Tokenizer, welche zu eignen Experimenten anregen sollten. Laboratorium

Seitenanfang Startseite