Morphologieanalyse und Lexikonaufbau (8. Vorlesung)
Dozent: Martin Volknach [Hahn und Sonnenberger 91]: Einführung in die Informationslinguistik. Uni Konstanz.
Informationslinguistik untersucht sprachliche Probleme der Textanalyse, wie sie typischerweise im Kontext von Information Retrieval (IR)-Systemen auftreten.
Informationsgewinnung aus textuellen Datenbanken. Man klassifiziert IR-Systeme nach:
Die Abbildung des Inhaltes eines Dokumentes auf eine Menge von relevanten Begriffen.
Genauer: Die Zuordnung von Deskriptoren und Notationen zu Dokumenten zwecks ihrer inhaltlichen Erschliessung und gezielten Wiederauffindung (vgl. DIN 31 623).
Vgl. Heinz-Dirk Luckhardt (Universität des Saarlandes): Automatische und intellektuelle Indexierung
Die Qualität eines Information Retrieval Vorgangs wird durch zwei Masszahlen (Recall und Precision) beschrieben, die auf folgenden Parametern beruhen:
V = F/R
G = F/A
Merke: 'Relevanz' ist das Mass der Übereinstimmung zwischen einem Dokument und der Suchanfrage aus der Sicht eines Experten.
Die sprachlichen Probleme der Informationslinguistik betreffen sämtliche Ebenen der sprachwissenschaftlichen Betrachtung.
MEIER <=> MEYER <=> MAIER <=> MAYER <=> MAYR GORBACHOW <=> GORBACHEV <=> ... GHADDAFY <=> KHADAFY
MUENCHEN <=> MUNICH <=> MONACO DI BAVIERA <=> ...
CRONAT <=> SOMAT
CO2 <=> Kohlenstoffdioxyd NATO <=> North Atlantic Treaty Organisation
Erkennung von Namensvarianten:
KODENAMEN-Verfahren; SOUNDEX-Verfahren
Untersuchungen (in den 80er Jahren) haben ergeben, dass in On-line Datenbanken teilweise mehr als 10% Schreibfehler vorkommen (d.h. jedes 10. Wort ist falsch geschrieben).
80% der Schreibfehler lassen sich auf die folgenden 4 Fehlertypen zurückführen:
Auslassung CHMICAL Einfügung CHEMEICAL Substitution CHEMECAL Vertauschung CHMEICAL ==> CHEMICAL
Anzahl der möglichen Schreibfehler (Einfachfehler) in einem Wort der Länge n (Ausgangsbasis 26 Buchstaben, Bindestrich, Hochkomma)
Auslassung n Einfügung 28 * (n + 1) Substitution 27 * n Vertauschung n - 1
Abgleich mit einer Wortliste (mit oder ohne Lemmatisierung)
Problem: Wenn der Schreibfehler ein anderes korrektes Wort ergibt, wird er nicht erkannt.
N-Gramm-Analyse: basiert auf der Untersuchung der Häufigkeit von Buchstabenfolgen einer bestimmten Länge (meist Länge n=2 oder n=3).
Anzahl möglicher n-Gramme: (angenommen 28 Zeichen im Alphabet)
In einem grösseren Textkorpus treten ca. 70% der möglichen Digramme und ca. 25% der möglichen Trigramme auf.
Bsp.: Cmputer wird als Fehler erkannt, da Trigramm cmp im Deutschen nicht vorkommt.
Ein Experiment mit: WordPerfect 2.1.0 für MacIntosh; USA-English
Korrigiert nicht:
Korrigiert:
WordPerfect 5.1 für DOS; Deutsch
Korrigiert auch:
Eine kleine Testdatei im Word-Format und als Text-Datei.
Ein Prolog-Programm, das Korrekturvorschläge für die obigen Fehlertypen berechnet.
COMPUTER COMPUTER'S COMPUTERS COMPUTERS' ==> COMPUTER
COMPUTER COMPUTATIONAL COMPUTED ==> COMPUT(E)
Zeitungsartikel ==> Zeitung + Artikel
Schrittempo ==> Schritt + Tempo
Beispiel:
EIGENVALUE PROBLEM INFORMATION THEORY DEDUCTIVE DATA BASE
Im Information Retrieval werden dafür besonders Abstandsoperatoren (`Adjacency') verwendet.
Als informationslinguistische Lösungsansätze kommen folgende Verfahren in Betracht:
Wörterbuchunabhängige Syntaxanalyse basiert auf der Segmentierung eines Textes über die Funktionswörter (Artikel, Präpositionen, Konjunktionen, Determiner-Pronomen) und Interpunktion. Diese werden interpretiert als Begrenzer, die eine Nominalgruppe einleiten oder abschliessen. Eine Verfeinerung des Verfahrens ist möglich über die Ermittlung der statistischen Relevanz von Begrenzerpaaren.
Beispiele:
was generally controlled by the porosity formed by
WATER TREATMENT <=> TREATMENT WITH WATER NEUTRON EXCHANGE <=> EXCHANGE OF NEUTRONS
EIGENWERTBERECHNUNG ==> BERECHNUNG, EIGENWERT PROGRAMMENTWURF ==> PROGRAMM, ENTWURF
BERECHNUNG VON EIGENWERTEN BERECHNUNG EINFACHER EIGENWERTE BERECHNUNG DICHT BENACHBARTER EIGENWERTE BERECHNUNG ZWEIER ISOLIERTER EINFACHER EIGENWERTE ==> BERECHNUNG, EIGENWERT
(nach [Kuhlen 86]: Informationslinguistik.)
Wald+Bäume+Kiefer => Baum Zahnarzt+Schmerzen+Kiefer => Kopfteil