Morphologieanalyse und Lexikonaufbau (12. Vorlesung)
Dozent: Martin VolkLit.: [Shieber 86]: An introduction to unification-based approaches to grammar.CSLI-Lecture Notes.
Eine Merkmalstruktur ist eine partielle Abbildung von Merkmalen auf Werte.
Merkmalstrukturen sind mehrfachverwendbar (engl. reentrant ), d.h. mehrere Merkmale können sich einen gemeinsamen Wert teilen.
Durch Subsumption ergibt sich eine natürliche Verbandsstruktur über Merkmalstrukturen. D subsumiert D', wenn D eine Teilmenge der Information von D' enthält.
Die Unifikation von zwei Merkmalstrukturen D' und D'' ist die allgemeinste Mermalstruktur D, so dass gilt: D' subsumiert D, und D'' subsumiert D.
Bei typisierten Merkmalstrukturen können nicht alle Merkmale überall auftreten, sondern nur in Merkmalstrukturen eines bestimmten Typs. Es gibt einSchema, das vorschreibt, wann ein Merkmal auftreten kann und welchenWertebereich ein Merkmal hat.
(nach [Ide et al. 93]: Outline of a model for lexicaldatabases. In: Information Processing & Management. 29(2). Die folgenden Fig.-Angaben beziehen sich auf Abbildungen aus diesem Paper.)
2.1. einfaches Beispiel: ein Lexikoneintrag als Merkmalstruktur (Eintrag für competitor; Fig. 17)
Problem: einfache Merkmalstrukturen sind nicht mächtig genug, umLexikonstrukturen zu repräsentieren. ==> man braucht Disjunktion
2.2. Beispiel mit Wert-Disjunktion
Ein Merkmal in einer Merkmalstruktur hat disjunktive atomare Werte.
Bsp.: alternative Orthographie in Fig.18 und alternative Orthographie und Aussprache in Fig.19
Problem: Wie funktioniert die Unifikation von Merkmalstrukturen mit Disjunktion?
Bsp.: [a:X] Û [a:(b,c)] = [a:(b,c)] [a:b] Û [a:(b,c)] = [a:b], da [a:b] Û [a:c] = fail [a:(b,c)] Û [a:(c, d)] = [a:c]
2.3 Allgemeine Disjunktion (zur Spezifikation alternativer Unterteile einesEintrags)
In einer Merkmalstruktur gibt es disjunktive Unterstrukturen.
Bsp.: alternative Orthographie mit disjunktiven Merkmalstrukturen auf oberster Ebene in Fig. 20a
alternative Orthographie mit disjunktiven Merkmalstrukturen in Fig. 20b
alternative Orthographie mit diskunktiven Merkmalstrukturen und Ausgeklammerung in Fig. 20c
2.4 Implementation in einem objekt-orientierten Datenbank-System
Gründe für eine objekt-orientierte DB:
Schritte bei der Implementierung (franz. Wörterbuch: Zyzomys)
Lexikoneinträge enthalten vielfach identische Informationen. So benötigen alle Verben:
[cat: v]
und alle finiten Verben:
[cat: v, form: finite]
Diese identische Information kann in einer Hierarchie (von allgemein zu spezifisch) angeordnet und entsprechend vererbt werden, so dass nur die jeweils abweichende Information neu kodiert werden muss.
(Bsp. [Shieber 86] S.57)
(Bsp. Alle Verben nehmen[subcat:first:NP(nom)] als Komplement; Ausnahmen wie z.B. "Mir graut vor dir."erhalten eine Sondermarkierung [subcat:first:NP(dat)], die den Defaultüberschreibt.)
(Bsp. Aktiv-Passiv Transformation bzgl. Subkategorisierung)
Im GTU-System wird das über Lexikon-Interface-Regeln gelöst:
if_in_lex (wortart=verb, subcat=nom_acc, diath=akt) then_in_gram V[subcat=nom_acc, diath=akt, agr=...]
if_in_lex (wortart=verb, subcat=nom_acc, diath=pass) then_in_gram V[subcat=nom, diath=pass, agr=...]
Lit.: [Evans und Gazdar 96]
DATR ist eine deklarative Sprache zur Repräsentation einerbeschränkten Klasse von Vererbungsnetzwerken. Es erlaubt sowohl multipleals auch Default-Vererbung.
Wichtigstes Anwendungsgebiet: Lexikoneinträge für die Verarbeitungnatürlicher Sprache
Motivation: eine Sprache, mit der man ausdrücken kann, dass ein Lexem regulär ist bis auf bestimmte aussergewöhnliche Eigenschaften.
Ziele: DATR ist eine Sprache, die
Information in DATR ist organisiert in einem Netzwerk von Knoten (repräsentiert typischerweise ein Wort). Jeder Knoten ist assoziiert mit einer Menge von Pfad/Wert Paaren, wobei ein Pfad eine Sequenz von Atomen ist und ein Wert ein Atom oder eine Sequenz von Atomen.
<syn cat> == v <syn type> == main <mor past> == ("<mor root>" _ed) <mor pres tense> == "<mor root>" <mor pres tense sing three> == ("<mor root>" _s) <mor pres participle> == ("<mor root>" _ing)
Wenn es keine spezifischeren Angaben gibt, erben alle Unterknoten von Verbdiese Angaben. Also auch
<mor past participle> == ("<mor root>" _ed) <mor past tense sing one> == ("<mor root>" _ed) <mor past tense sing two> == ("<mor root>" _ed) ...
Die Definition für ein Hilfsverb sieht dann so aus:
AUX:
< > == VERB <syn type> == aux <syn args> == VPCOMP
Ein Modalverb kann angesehen werden als ein Spezialfall eines Hilfsverbs mitfolgender Definition:
MODAL1:
< > == AUX. <syn form> == finite
Eintrag für ein unregelmässiges Verb
BE_MOR:
<mor> == VERB<mor root> == be <mor past participle> == been <mor past tense sing one> == <mor past tense sing three> <mor past tense sing three> == was <mor past tense> == were <mor pres tense sing one> == am <mor pres tense sing three> == is <mor pres tense> == are.
Spezifische Varianten:
Be1: < > == AUX <mor> == BE_MOR <syn args> == NPCOMP
Be2: < > == MODAL1 <mor> == BE_MOR.
Be3: < > == AUX <mor> == BE_MOR <syn args car syn form> == prp.
Verb: <syn cat> == v AUX: <syn type> == aux
AUX: < > == VERB. Be1: <mor> == BE_MOR.
BE_MOR: <mor past tense sing one> == <mor past tense sing three>
B1: <mor root> == BE_MOR: <mor root>
VERB: <mor pres tense> == "<mor root>"