Tokenisierung: Segmentieren von Wörtern und Sätzen

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

5.3. Tokenisierung: Segmentieren von Wörtern und Sätzen

5.3.1. Problem

Naive Tokenisierung mit 3 Zeichenklassen
Ein Token ist in segmentierten Schriftsystemen durch Leerraumzeichen (engl. white space) oder Interpunktion begrenzt.

Wort-Zeichen: /[a-zA-Z0-9]/
Einzel-Zeichen: /[.,:;?!)(" ?-]/
Grenz-Zeichen: /\s/

Problem

Tokens können sowohl Einzel- wie Grenz-Zeichen enthalten:
“Joop!”, “usw.”, “1 000”, “«Ich bin Borat»-Kit”

Teilprobleme der Tokenisierung im weiten Sinn

Umgang mit Markup (HTML-Tags, Formatierungszeichen)
Erkennung der “normalen” Tokengrenzen (in nicht-segmentierten Schriftsystemen wie dem Chinesischen anspruchsvoll)
Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen beinhalten
Erkennung von Interpunktion (Punktdesambiguierung, Satzendeerkennung)
Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)
Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)

5.3.2. Punktdesambiguierung

Erkennung von Satzenden (Satz-Segmentierung)

Im Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzﬁnal ist. Wer jeden Punkt als Satzende interpretiert, liegt (im Englischen) in 8-45% der Fälle daneben.

Verschärfend: Verschmelzung zweier Funktionen

Wiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.

Beispiel 5.3.1 (Verschmelzung im Englischen).

It was due Friday by 5 p.m. Saturday would be too late.
Ich kenne die U.S.A. Frankreich kenne ich nicht.

Weiteres

Nicht bloss Punkte sind mehrdeutig, auch andere Interpunktion ist es, aber nicht so virulent.

Algorithmus zur Punktdesambiguierung nach [GREFENSTETTE und TAPANAINEN 1994]

Gegeben sei ein Token aus einem englischen Text, welches mit einem Punkt endet.

Der Punkt ist ein Abkürzungspunkt, falls

das Token in einer Abkürzungsliste steht.
nach dem Token [,;a-z] folgt.
das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht im Lexikon steht.
das Token grossgeschrieben ist, eher häuﬁg vorkommt und im Text nicht ohne den Punkt vorkommt.

Leistungsfähigkeit

Mit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.

Statistische Verfahren zur Punktdesambiguierung

Prinzip

Verwende die Häuﬁgkeiten von Vorkommen (occurence) und Mit-Vorkommen (co-occurence) von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treﬀen.

Interessante Merkmale für statistische Ansätze

Wieviele Zeichen umfasst ein Token?
Umfasst ein Token Ziﬀern oder keine Vokale?
Wie oft kommt das Token ohne Punkt vor?
Wie oft kommt nach dem Token ein grossgeschriebenes Token vor?
Wie oft kommt ein Token kleingeschrieben vor?
Welche Wortart haben die umgebenden Tokens?

5.3.3. Zeichen- und Token-Normalisierung

Text-Normalisierung
Die Modiﬁkation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten bis zu stark linguistisch motivierten Operationen gehen.

Beispiel 5.3.2 (Normalisierung bei Suchmaschinen und anderen Anwendungen).

Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich …
4.8.97, 4-8-97, 4/8/97, 8/4/97
19000, 19’000, 19 000, 19,000
Louisa, Luise, Louise, Luisa …
doesn’t, does not

Rückgängig machen von Worttrennung am Zeilenende

Deﬁnition 5.3.3. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In einigen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weitere graphematische Modiﬁkationen.

Beispiel 5.3.4 (Graphematische Modiﬁkationen).

Deutsch alte Rechtschreibung: Zuk-ker $→$ Zucker; Schiﬀ-fahrt $→$ Schiﬀahrt
Holländisch: chocola-tje $→$ chocolaatje

Rückgängig machen von Worttrennung am Zeilenende

Probleme der Dehyphenation im Englischen [GREFENSTETTE und TAPANAINEN 1994]

Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach dehyphenisiert. Vergleich mit den manuell kontrollierten originalen Tokens:

Zeilen	in %	Typ
101’860	100%	Zeilen total
12’473	12%	mit Silbentrennung
Rückbau	in %	Typ
11’858	95%	Rückbau in existierende Tokens
615	5%	Rückbau in neue Tokens

Tabelle 5.1:

Übersicht: Rückbau von Silbentrennung im Brown-Korpus

Beispiele: “rookie-of-theyear”, “scienceﬁction”, “roleexperimentation”

Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.

5.3.4. Named Entity Recognition

Named Entity Recognition

Deﬁnition 5.3.5. Unter Named Entity Recognition (NER) versteht man die Identiﬁzierung von Namen von Personen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs- und Zeitangaben oder weitere textsortenspeziﬁsche interessierende Grössen .

Einheitliche (kanonische) Repräsentation

Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identiﬁzierte interessierende Grössen in ein einheitliches und eindeutiges Format zu bringen.

Beispiel 5.3.6 (Kanonische Formen).

USA: “U.S.A.”,“United States of America”, “U.S. of America”
time(13,20,–): “13.20”, “13h”, “1.20 pm”, “Zwanzig nach Eins”

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]