Programmierprojekt "Extraktion aus NEGRA-annotierten Sätzen"

BearbeiterIn: N.N.

Betreuer: Simon Clematide

Einführung

Der klassische Syntaxbaum lässt sich redundanzfrei durch die Relation der unmittelbaren Dominanz zweier Knoten und unmittelbaren linearen Präzedenz von Geschwisterknoten repräsentieren.
Das NEGRA-Annotationsformat enthält zusätzlich noch eine funktionale Bestimmung (syntaktische Funktionen) für jede unmittelbare Dominanzbeziehung. Wortarten können (entgegen der naiven Interpretation der graphischen Darstellung) als Phrasen aufgefasst werden. Den Wortartenphrasen zugeordnet ist jeweils die Wortinformation (Wortform, Morphologie). Im NEGRA-Format sind überkreuzende Kanten zulässig, d.h. aus der linearen Präzedenz zweier Knoten k1 < k2 kann nicht geschlossen werden, dass alle Kinder von k1 vor allen Kindern von k2 erscheinen. Zudem erscheinen Wortartenphrasen (d.i. Interpunktionen) nicht in der Satzstruktur, d.h. es gibt noch isolierte Knoten ("Wurzelstöcke"), die zusammen mit dem Syntaxbaum einen eigentlichen Wald bilden.

Die grundlegende Repräsentation für die Struktur von Sätzen soll folgendermassen aussehen:

Unmittelbare funktional determinierte Dominanzbeziehung (id/3)

id(NodeID, Label, nodeID)

Unmittelbare Präzedenzbeziehung (lp/2)
lp(nodeID, nodeID)
Wortinformation (wd/3)

wd(nodeID, Wortform, Morphologie)


Für obigen Baum sähen die entsprechenden Klauseln auszugsweise so aus:
id('CS'(506), 'CJ', 'S'(504)). id('S'(504), 'SB', 'PPER'(0)). id('S'(504), 'HD', 'VVFIN'(1)). ... id('$,'(7). lp('PPER'(0),'VVFIN'(1)). lp('VVFIN'(1),'CNP'(502)). lp('CNP'(502),'PTKVZ'(6) wd(0, 'Sie', [3,'Pl',_,'Nom']). wd(1, 'gehen', [3,'Pl','Pres','Ind']). wd(2, 'gewagte', ['Pos',_,'Akk','Pl','S1']). ... wd(7,',',_). ...
...

Ziel und Zweck

Ziel dieser Arbeit ist es, ausgehend vom der oben angegebenen logischen Repräsentation eines Satzes, Extraktionsprädikate zu definieren, die das Anbindungsverhalten von Präpositionalphrasen zu untersuchen erlauben. Diese Extraktionsprädikate werden satzweise auf annotierte Korpora angewendet und sollen am Schluss 6-Tupel liefern, die folgende Information enthalten:
tupel(Verb, EchterNominalKopf, AdjazenterNominalKopf, Präpositional, PPKern, Anbindungsentscheidung) Verb: v(Wortform, Verbzusatz, Reflexivität) Wortform: wörtliche Verbform Verbzusatz: wörtliches abtrennbares Verbpräfix Reflexivität: 0 oder 1

EchterNominalKopf: n(Worform,Eigen) oder none

Arbeitsschritte

Konversion vom prologifizierten NEGRA-Exportformat ins id/lp/wd-Format
1. Definition von Hilfsprädikaten
Systematische Zusammenstellung über mögliche Strukturen von Verbalkomplexen, Nominal- und Präpositionalphrasen im NEGRA-Format
1. Definition von Prädikaten, die diese Strukturen in Sätzen matchen und die für die Informationsakkumulation relevante Information zurückgeben
Definition der Konfigurationen, die potentielle 6-Tupel erzeugen
Definition der Feinkriterien und Informationsakkumulationen für 6-Tupel
1. Spezifische Kriterien, die bestimmte Kandidaten ausschliessen (elliptische Phrasen,…)
2. Informationsakkumulation: Bestimmung von Reflexivität, Eigennamen, Adpositionsgliedern (Prä-, Post- und Circumfixen), Kompositionsauflösung, abgetrennte Verbpräfixe
Programmierung der Extraktion als Generate-And-Test-Verfahren: Von Konfigurationen erzeugte Kandidaten werden getestet mit Feinkriterien und falls sie die Tests bestehen, mit Information akkumuliert und in der Wissensbasis abgelegt. Per Backtracking werden Alternativen erzeugt.
Vergleiche der Resultate mit den Tupeln von M. Volk

Anforderung

Interesse an eleganter deklarativer Programmierung mit Prolog (Das Programm muss nicht effizient sein, aber es soll möglichst elegant, durchsichtig und erweiterbar sein)

Benötigte Ressourcen

annotierte Sätze im prologifizierten NEGRA-Exportformat
Tupel von M.Volk

Literatur und Links

Abschnitte aus M. Volks Habil
Lezius, Wolfgang and König, Esther (2000) Towards a search engine for syntactically annotated corpora in Proceedings of the Fifth KONVENS Conference Ilmenau, Germany.
NEGRA-Annotationsschema

Simon Clematide