5 Spezielle Probleme

[ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ]

5. Spezielle Probleme

Neben den bereits genannten Problemen bereiten die folgenden Aspekte notorische Schwierigkeiten:

Erkennung und Unterscheidung von einfachen und doppelten Anführungszeichen und Apostroph
Erkennung eingebetteter Sätze (z.B. Dies ist ein eingebetteter Satz.)
Auslassungen in koordinierten Strukturen

Die ersten zwei Fälle sind recht offensichtlich (ihre Behandlung ist es nicht). Wir gehen nur auf den letzten näher ein. Einfache Lösungen können wir aber nicht vorstellen: Bislang existieren noch keine optimalen Algorithmen für Behandlung dieser Fälle.

Auslassungen in koordinierten Strukturen im Deutschen, wie z.B. “Ein- und Ausgang”, sind ein besonders unangenehmes (aber häufig vorkommendes) Problem. Dies sind echt elliptische Konstruktionen, und ein wirklich guter Tokeniser für das Deutsche müsste die vollständigen Formen rekonstruieren. Leider sind dabei aber oft mehrere Rekonstruktionen denkbar:

1. Ein- und Aus|gang   $→$ Eingang und Ausgang

   Informations|beschaffung und -verarbeitung $→$
   Informationsbeschaffung und Informationsverarbeitung

2. Text|zugriff- und -verwaltungs|systeme $→$
Textzugriffsysteme und Textverwaltungssysteme
(nicht aber: Textzugriffsysteme und Textzugriffverwaltungssysteme)

3. Anschaffungs- und Unterhalts|kostenbilanz $→$
   Anschaffungskostenbilanz und Unterhaltskostenbilanz

   ? Anschaffungs- und Unterhaltskosten|bilanz $→$
   ? Anschaffungsbilanz und Unterhaltskostenbilanz

   * Anschaffungs- und Unter|haltskostenbilanz $→$
   * Anschaffungshaltskostenbilanz und Unterhaltskostenbilanz

Das erste ist gut. Die Expansion kann in “((Unterhaltskosten)bilanz)”, und “((Anschaffungskosten)bilanz)” zerlegt werden, und “Anschaffungskosten” wie “Unterhaltskosten” sind $±$ feste Fachtermini, und erst noch parallel gebildete.
Das zweite ist nicht gut, weil “Anschaffungsbilanz” sicher nicht und “Unterhaltskostenbilanz” kaum als eindeutige Fachtermini betrachtet werden können, noch parallel gebildet sind (der erste Ausdruck ist zweigliedrig, der zweite [mindestens] dreigliedrig).
Das dritte ist ausgeschlossen, weil “Anschaffungshaltskostenbilanz” morphologisch nicht wohlgeformt ist.

Dass derartige Überlegungen sehr ressourcen-intensiv sind (sie verlangen nach komplexen Algorithmen und daher viel Rechenzeit und erfordern ein umfassendes Lexikon), ist klar. Wie genau solche Algorithmen aussehen sollten, ist weniger klar.

Lösung: Der Kern der Tokenisierung besteht in der Durchführung von einzelnen Isolationsoperationen in einer exakt spezifizierten Abfolge mit nachfolgendem Trennen bei den verbleibenden “white space characters”.

[ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ]