5.3
 Tokenisierung: Segmentieren von Wörtern und Sätzen

5.3.1
 Problem

Naive Tokenisierung mit 3 Zeichenklassen 
Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder Interpunktion begrenzt.

Problem

Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten:
“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”

Teilprobleme der Tokenisierung im weiten Sinn 

5.3.2
 Punktdisambiguierung

Erkennung von Satzenden (Satz-Segmentierung)

Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Wer jeden Punkt als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.

Verschärfend: Verschmelzung zweier Funktionen

Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.

Beispiel 5.3.1 (Verschmelzung).

Weiteres

Auch andere Interpunktion als Punkte ist mehrdeutig.

Algorithmus zur Punktdisambiguierung  
Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.

Der Punkt ist ein Abkürzungspunkt, falls

Nach [Grefenstette und Tapanainen 1994]

Leistungsfähigkeit

Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.

Statistische Verfahren zur Punktdisambiguierung 

Prinzip

Verwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.

Interessante Merkmale für statistische Ansätze

  1. Wieviele Zeichen umfasst ein Token?
  2. Umfasst ein Token Ziffern oder keine Vokale?
  3. Wie oft kommt das Token ohne Punkt vor?
  4. Wie oft kommt nach dem Token ein grossgeschriebenes Token vor?
  5. Wie oft kommt ein Token kleingeschrieben vor?
  6. Welche Wortart haben die umgebenden Tokens?

5.3.3
 Zeichen- und Token-Normalisierung

Text-Normalisierung 
Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen.

Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).

Rückgängig machen von Worttrennung am Zeilenende 

Definition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modifikationen.

Beispiel 5.3.4 (Graphematische Modifikationen).

Rückgängig machen von Worttrennung am Zeilenende 

Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]

Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens:


Zeilen in % Typ
101’860 100% Zeilen total
12’473 12% mit Silbentrennung
Rückbau in % Typ
11’858 95% Rückbau in existierende Tokens
615 5% Rückbau in neue Tokens

Tabelle 5.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus

Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”

Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.

5.3.4
 Named Entity Recognition

Named Entity Recognition 

Definition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs- und Zeitangaben oder weitere textsortenspezifische interessierende Grössen .

Einheitliche (kanonische) Repräsentation

Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen.

Beispiel 5.3.6 (Kanonische Formen).