[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]
Naive Tokenisierung mit 3 Zeichenklassen
Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder
Interpunktion begrenzt.
Problem
Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten:
“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”
Teilprobleme der Tokenisierung im weiten Sinn
Erkennung von Satzenden (Satz-Segmentierung)
Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.
Verschärfend: Verschmelzung zweier Funktionen
Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.
Beispiel 5.3.1 (Verschmelzung).
Weiteres
Auch andere Interpunktion als Punkte ist mehrdeutig.
Algorithmus zur Punktdisambiguierung
Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.
Der Punkt ist ein Abkürzungspunkt, falls
Nach [Grefenstette und Tapanainen 1994]
Leistungsfähigkeit
Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.
Statistische Verfahren zur Punktdisambiguierung
Prinzip
Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.
Interessante Merkmale für statistische Ansätze
Text-Normalisierung
Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten
bis zu stark linguistisch motivierten Operationen gehen.
Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).
Rückgängig machen von Worttrennung am Zeilenende
Definition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen.
Beispiel 5.3.4 (Graphematische Modifikationen).
Rückgängig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]
Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens:
Zeilen | in % | Typ |
101’860 | 100% | Zeilen total |
12’473 | 12% | mit Silbentrennung |
Rückbau | in % | Typ |
11’858 | 95% | Rückbau in existierende Tokens |
615 | 5% | Rückbau in neue Tokens |
Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.
Definition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs- und Zeitangaben oder weitere textsortenspezifische interessierende Grössen .
Einheitliche (kanonische) Repräsentation
Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen.
Beispiel 5.3.6 (Kanonische Formen).
[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]