Lexiko-syntaktische Patterns

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

14.2. Lexiko-syntaktische Patterns

14.2.1. Alshawi (1987): Wörterbuch-Aufbereitung

Extraktion lexikalischer Relationen aus einem Wörterbuch

Projekt-Idee

[ALSHAWI 1987] extrahiert lexikalische Information aus einem maschinenlesbaren Wörterbuch (MRD = machine readable dictionary): dem “Longman Dictionary of Contemporary English” (LDOCE).

Motivationen

Mangel an lexikalisch-semantischen Ressourcen beheben, der damals (auch) viele Fehler in NLP-Applikationen verschuldete.
Ausnützen eines Wörterbuchs, dessen Deﬁnitionen aus einem kontrollierten Vokabular (ca. 2000 Wörter) getextet sind
Ausnützen von Fachgebietsangaben (subject codes), um Mehrdeutigkeiten aufzulösen
Robuste syntaktische Analysemethoden anwenden, welche unzulänglich Sprachanalyse geschickt kompensieren

Beispiel: Nomen “Barkasse”

pict

Aufgabe der Analyse

Erkennung des Kopfes des Deﬁnition
Erkennung der Modiﬁkatoren (Adjektive, Relativsätze, Klammerbemerkungen usw.) und ihrer semantischen Funktion

Implementation

Morphologische Analyse
Anwendung einer hierarchisch geordneten Liste von lexikalisch-syntaktischen Analyse-Mustern : Generische Regeln enthalten Verweise auf speziﬁschere Regeln, welche gezielt ausprobiert werden.
Konstruktion der semantischen Struktur aus den gematchten Resultaten

Mini-Evaluation

500 zufällig ausgewählte Lexikoneinträge (Überschneidungen mit Entwicklungsset waren unwahrscheinlich, aber nicht ausgeschlossen)
77% korrekte Köpfe
41% korrekte Zusatzinformation

Beispiel: Regeln für Relativsätze

pict

Abbildung 14.1:

Regelapparat für Sätze wie “mug: a foolish person who is easily deceived”

14.2.2. Hearst (1992)

Pattern-Ansatz von [HEARST 1992]

Motivation und Hauptziele

Vermeiden von vollständiger Abhängigkeit von vorkodierten Wissensbeständen
Lexikalische Ressourcen für beliebige Texte
Keine Abhängigkeit von vollständiger syntaktischer Analyse
Benutzen von Pattern-Matching-Ideen wie bei [ALSHAWI 1987] – allerdings besonders koordinierte Phrasen

Nachteile

Die Methode scheint besonders gut für Hyponymie zu funktionieren – andere Relationen sind schwierig.

Hyponym-Pattern

Text aus Grolier’s American Academic Encyclopedia

The bow lute, such as the Bambara ndang, is plucked and has an individual curved neck.

Idee

Auch wenn man “Bambara ndang” noch nie gehört hat, weiss man, dass es eine Art “bow lute” sein muss.

Lexikalisch-syntaktisches Muster

Aus

N P0 such as N P1,N P2,...,(and | or)N Pn

folgt (vermutlich), das alle NP_1..n Hyponyme von NP₀ sind.

hyponym("Bambara ndang","bow lute")

Weitere Muster

such NP as {NP}* (and|or) NP: works by such author as Herrick, Goldsmith, and Shakespeare
NP {NP}* (and|or) other NP: Bruises, wounds, broken bones or other injuries
NP including {NP}* (or|and) NP: All common-law countries, including Canada and England

Problem der Modiﬁkation

In einem Zeitungstext (New York Times) mit ca. 20 Millionen Wörtern ﬁnden sich etwa 3178 Sätze mit dem “such-as”-Muster. Aber nur 46 Relationen lassen sich damit identiﬁzieren, wenn man keine modiﬁzierten Nomen erlaubt.

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]