Textbereinigung

[ Weiter ] [ Seitenende ] [ Überkapitel ]

4.1. Textbereinigung

Die Textbereinigung dient dazu, Dinge zu entfernen, welche nicht zum Text im engeren Sinn gehören. Zur Textbereinigung sind z.B. die folgenden Aufgaben zu zählen:

Entfernen von Markup (z.B. HTML-Tags, Formatieranweisungen etc.)
Entfernen von Trennungsstrichen (d.h. das Zusammenfügen getrennter Wörter) (“De-Hyphenation”)

Allerdings kann man die Textbereinigung in den meisten Fällen leider nicht einfach als vorgeschalteten Schritt behandeln, dem die eigentliche Textzerlegung folgt. So ist das Entfernen von Markup nicht immer angemessen, denn viele der auf Grund ihrer internen Struktur nur schwer als kohärente Tokens erkennbare Dinge (wie E-Mail-Adressen, URLs u.ä.) werden oft durch entsprechende Tags explizit gekennzeichnet, z.B. wird ein URL in HTML durch die Tags <a href="..."> und </a> eingeschlossen. Wenn man diese Marker aber im ersten Schritt global alle entfernt, verliert man diese Information, die man nachher mühsam wieder rekonstruieren muss (siehe 4.2.1 auf Seite 13

Auch die Entfernung von Trennungsstrichen kann nicht global und undifferenziert durchgeführt werden: Befindet sich ein Bindestrich, der Teil eines Worts ist, nämlich zufälligerweise am Ende einer Zeile, so kann aus einer end-of-file-Markierung leicht eine end-offile-Markierung werden. Um dies zu vermeiden, kann man einen Lexikon-Lookup vorschalten (und hoffen, dass dort end-of-file-Markierung als Wort erkannt wird). Erneut schaffen komplexe Tokens (siehe erneut 4.2.1 auf Seite 13 ) Probleme, die sich auch so nicht lösen lassen. Und schliesslich müsste man, um fehlerhafte Kontraktionen wie Textund Bildverarbeitung auszuschliessen, auch noch koordinierte Konstruktionen erkennen, was sehr schwierig ist (siehe 5 auf Seite 23 ).

[ Weiter ] [ Seitenbeginn ] [ Überkapitel ]