Die Anwendung von Morphologieanalyse in Information Retrieval-Systemen

Morphologieanalyse und Lexikonaufbau (10. Vorlesung)

Dozent: Gerold Schneider

Übersicht


Teilw. nach [Hahn und Sonnenberger 91]: Einführung in die Informationslinguistik. Uni Konstanz.

Was ist Informationslinguistik?

Informationslinguistik untersucht sprachliche Probleme der Textanalyse, wie sie typischerweise im Kontext von Information Retrieval (IR)-Systemen auftreten.

Was ist Information Retrieval (IR)?

Informationsgewinnung aus textuellen Datenbanken, i.a. schlüsselwortbasiert (Deskriptoren). Man klassifiziert IR-Systeme nach:

 

 

Was ist Indexierung?

Die Abbildung des Inhaltes eines Dokumentes auf eine Menge von relevanten Begriffen.

Genauer: Die Zuordnung von Deskriptoren und Notationen zu Dokumenten zwecks ihrer inhaltlichen Erschliessung und gezielten Wiederauffindung (vgl. DIN 31 623).

Vgl. Heinz-Dirk Luckhardt (Universität des Saarlandes): Automatische und intellektuelle Indexierung

IR und seine nahen Verwandten im Vergleich

IR Probleme

  1. dasselbe Wort kann verschiedene Typen von Objekten bezeichnen, wie auch umgekehrt.
  2. Wörter liegen selten in ihrer Grundform im Text vor, sondern häufiger in einer flektierten Form. Die meisten IR-Verfahren verwenden zu wenig morphologische Informationen ->Verlust an Recall (Ausbeute) (viele der relevanten Dokumente werden nicht gefunden).
  3. Schlüsselwortsuche missachtet jede Form der syntaktischen und letztlich semantischen Zusammenhänge innerhalb eines Satzes ->Verlust an Präzision (viele der gefundenen Dokumente sind nicht relevant).
  4. Nur ganze Dokumente werden gefunden, oft sehr viele -> zeitaufwendiges manuelles Durchlesen

Alternativen zu IR

Informationsextraktion (IE), Textbasiertes Fragenbeantworten, Antwortextraktion (AE, Q&A)

 

Informationsextraktion (IE)

Informationsextraktion (IE) erlaubt das effiziente Absuchen grosser Textmengen auf präzise, vordefinierte Fragestellungen hin, die einen Sachverhalt ausdrücken (Message Understanding Conference, http://www.muc.saic.com). Da dabei ein fixes, datenbankähnliches Informationsraster gefüllt wird, können nur sehr eng definierte thematische Bereiche abgedeckt werden.

Textbasiertes Fragenbeantworten

Der ideale Lösungsansatz wäre zweifellos der Einsatz von Systemen zur automatischen Fragenbeantwortung über Texten. Die Erfahrungen bei der Entwicklung derartiger Systeme, z.B. LILOG (Herzog 1991) haben allerdings gezeigt, dass der Entwicklungsaufwand für derartige Systeme sehr gross ist.

Answer Extraction (AE, Q&A)

Geht davon aus, dass man in den vorhandenen Texten oft Stellen lokalisieren kann, welche die Antwort auf eine Frage explizit enthalten. Im Unterschied zum IR baut AE auf einer vollständigen morphologischen und syntaktischen Analyse auf. Einige Aspekte der Semantik wie thematische oder terminologische Relationen werden analysiert. Anderes Szenario: Benutzeranfragen, Problemlösen. Q&A-Track der TREC-8 (1999).

 

Masszahlen des Information Retrieval

Die Qualität eines Information Retrieval Vorgangs wird durch zwei Masszahlen (Recall und Precision) beschrieben, die auf folgenden Parametern beruhen:

  1. Anzahl der gefundenen relevanten Dokumente: F
  2. Anzahl aller relevanten Dokumente: R
  3. Anzahl aller gefundenen Dokumente: A
Recall (Vollständigkeit der Suche, "Ausbeute")
Recall    =  F/R
Precision (Genauigkeit der Suche)
Precision =  F/A
Merke: 'Relevanz' ist das Mass der Übereinstimmung zwischen einem Dokument und der Suchanfrage aus der Sicht eines Experten.

F-Wert (Kombination von Precision und Recall)

F-Wert       Recall * Precision
------    = ---------------------
  2          Recall + Precision

'Relevanz' ist das Mass der Übereinstimmung zwischen einem Dokument und der Suchanfrage aus der Sicht eines Experten.

Informationslinguistik

Die sprachlichen Probleme der Informationslinguistik betreffen sämtliche Ebenen der sprachwissenschaftlichen Betrachtung.

1. Graphematisch-phonologische Verfahren

1.1 Erkennung von lautlichen oder Schreibvarianten

 
Personennamen in Presse-Datenbanken, Personal-, Patienten- oder Kunden-Dateien
MEIER <=> MEYER <=> MAIER <=> MAYER <=> MAYR 
GORBACHOW <=> GORBACHEV <=> ... 
GHADDAFY <=> KHADAFY
 
geographischer Name
MUENCHEN <=> MUNICH <=> MONACO DI BAVIERA <=> ...
 
Produktnamen in Patentämtern
CRONAT <=> SOMAT
 
Abkürzungen / Akronyme
CO2  <=> Kohlenstoffdioxyd 
NATO <=> North Atlantic Treaty Organisation
 

1.2 Schreibfehler-Erkennung und -Korrektur

Untersuchungen (in den 80er Jahren) haben ergeben, dass in On-line Datenbanken teilweise mehr als 10% Schreibfehler vorkommen (d.h. jedes 10. Wort ist falsch geschrieben).
80% der Schreibfehler lassen sich auf die folgenden 4 Fehlertypen zurückführen:
 Auslassung               CHMICAL 
 Einfügung               CHEMEICAL 
 Substitution            CHEMECAL 
 Vertauschung            CHMEICAL 
				==> CHEMICAL
Anzahl der möglichen Schreibfehler (Einfachfehler) in einem Wort der Länge n (Ausgangsbasis 26 Buchstaben, Bindestrich, Hochkomma)
 Auslassung          n 
 Einfügung           28 * (n + 1) 
 Substitution        28 * n 
 Vertauschung        n - 1

oder: Wieviele Buchstaben stimmen überein? (Reihenfolge?)

Zusammen mit Trunkierung kann 'Fehlerkorrektur' auch als Lemmatisierungshilfe fürs IR missbraucht werden.

Wortlistenabhängige Verfahren zur Schreibfehlererkennung:

Abgleich mit einer Wortliste (mit oder ohne Lemmatisierung)
Problem: Wenn der Schreibfehler ein anderes korrektes Wort ergibt, wird er nicht erkannt.
Schreibfehlererkennung kann in IR (zus. mit Trunker) primitive Lemmatisierung ermöglichen.

Wortlistenunabhängiges Verfahren zur Schreibfehlererkennung:

N-Gramm-Analyse: basiert auf der Untersuchung der Häufigkeit von Buchstabenfolgen einer bestimmten Länge (meist Länge n=2 oder n=3).
Anzahl möglicher n-Gramme: (angenommen 28 Zeichen im Alphabet)
Bigramme:
282 = 784
Trigramme:
283 = 21'952

In einem grösseren Textkorpus treten ca. 70% der möglichen Digramme und ca. 25% der möglichen Trigramme auf.

Bsp.: Cmputer wird als Fehler erkannt, da Trigramm cmp im Deutschen nicht vorkommt.

 

2. Morphologische Verfahren

Lexikalisch: Eigennamenlexikon oder Negativverdacht: N nicht in allg. Lexikon à Eigenname-Kandidat

Kollokationsforschung: Begleiter (Frau, Dr., AG, Ltd.), Mehrwortterme (statistisch)

 

 

3. Syntaktische Verfahren

3.1 Erkennung von komplexen (mehrgliedrigen) Nominalphrasen

Beispiel:

EIGENVALUE PROBLEM
INFORMATION THEORY
DEDUCTIVE DATA BASE

Im Information Retrieval werden dafür besonders Abstandsoperatoren (`Adjacency') verwendet.

Als informationslinguistische Lösungsansätze kommen folgende Verfahren in Betracht:

 

Wörterbuchunabhängige Syntaxanalyse basiert auf der Segmentierung eines Textes über die Funktionswörter (Artikel, Präpositionen, Konjunktionen, Determiner-Pronomen) und Interpunktion. Diese werden interpretiert als Begrenzer, die eine Nominalgruppe einleiten oder abschliessen. Eine Verfeinerung des Verfahrens ist möglich über die Ermittlung der statistischen Relevanz von Begrenzerpaaren.

Fast noch geläufiger ist der Einsatz eines Taggers, auf dessem Output sich tag-basierte reguläre Ausdrücke anwenden lassen, z.B. (/ART)? (/ADJA)* /NN für einfache, ungeschachtelte NPs.

Beispiele:

The phosphoric acidity has ...
was generally controlled by ...
the porosity formed by ...
 
Bei [der/ART hier/ADV vorgelegten/ADJA chemischen/ADJA 
Analysemethode/NN] hat sich gezeigt, ...

 

3.2 Erkennung von nominalen syntaktischen Paraphrasen

WATER TREATMENT  <=> TREATMENT WITH WATER 
NEUTRON EXCHANGE <=> EXCHANGE OF NEUTRONS 

3.3 Erkennung und Auflösung von Nominalkomposita

EIGENWERTBERECHNUNG  ==> BERECHNUNG, EIGENWERT  
PROGRAMMENTWURF  ==> PROGRAMM, ENTWURF 

3.4 Erkennung von attributiv expandierten Varianten von Nominalphrasen

BERECHNUNG VON EIGENWERTEN 
BERECHNUNG EINFACHER EIGENWERTE 
BERECHNUNG DICHT BENACHBARTER EIGENWERTE 
BERECHNUNG ZWEIER ISOLIERTER EINFACHER EIGENWERTE 
==> BERECHNUNG, EIGENWERT

 

4. Semantische Verfahren


5. Statistische Verfahren

 

Linguistische Probleme in Information Retrieval Systemen

(nach [Kuhlen 86]: Informationslinguistik.)


Gerold Schneider
Date of last modification: June 12, 2001
Source: http://www.ifi.unizh.ch/CL/gschneid/LexMorphVorl/Lexikon10.IR.html