[ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ]
Bei der Abtrennung der Interpunktionszeichen stellt die Behandlung des Punktes aufgrund seiner Ambiguität zwischen Satzende-Kennzeichner und Abkürzungspunkt das augenfälligste Problem dar: Erstens ist es nicht trivial, eine Abkürzung als solche zu erkennen und zweitens übernimmt der Punkt nicht selten doppelte Funktion (statt “etc..” am Satzende nur “etc.”).
Würden die Interpunktionszeichen generell zuerst abgetrennt, müssten Abkürzungspunkte explizit wieder aufgrund bestimmter Prinzipien angefügt werden (übrig blieben per default die Satzendepunkte).
Eine einfache Heuristik für eine solche Erkennung von Satzendepunkten ist die folgende:
Hiermit werden allerdings Punkte in Ordinalzahlen (1. Schweizer Kongress) nicht erfasst und auch die Satzendeerkennung nicht zufriedenstellend behandelt. Die oben vorgestellte Option, zunächst eine Menge verschiedener Ausdrücke zu erkennen, hat z.B. für das Erkennen von Abkürzungen den weiteren Vorteil, dass eine entsprechende Abkürzungsliste verwendet werden kann (wofür intervenierende newlines eher hinderlich sind).
Die Satzendeerkennung lässt sich ausserdem verbessern, wenn das Lexikon verwendet wird: Folgt auf einen Punkt ein Wort in Grossschreibung, das im Lexikon nicht als Nomen vorkommt, so liegt sehr wahrscheinlich ein Satzende vor.
In diesem Fall kann die folgende Heuristik angenommen werden:
Diese Heuristik leidet “nur” noch unter der notorischen Unvollständigkeit von Listen (in diesem Fall von der Abkürzungsliste).
Schliesslich bietet sich eine statistisch basierte Behandlung dieser Aufgaben an, die zunächst Information über mögliche Abkürzungen, Satzanfänge, Wörter vor und hinter Zahlen und Endungen von Wörtern (s. z.B. Berghangstr.) anhand grosser Korpora analysiert und diese dann auf konkrete Texte anwendet.
[ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ]