Programmierprojekt "Extraktion aus NEGRA-annotierten Sätzen"

BearbeiterIn: N.N.

Betreuer: Simon Clematide

Einführung

Der klassische Syntaxbaum lässt sich redundanzfrei durch die Relation der unmittelbaren Dominanz zweier Knoten und unmittelbaren linearen Präzedenz von Geschwisterknoten repräsentieren.
Das NEGRA-Annotationsformat enthält zusätzlich noch eine funktionale Bestimmung (syntaktische Funktionen) für jede unmittelbare Dominanzbeziehung. Wortarten können (entgegen der naiven Interpretation der graphischen Darstellung) als Phrasen aufgefasst werden. Den Wortartenphrasen zugeordnet ist jeweils die Wortinformation (Wortform, Morphologie). Im NEGRA-Format sind überkreuzende Kanten zulässig, d.h. aus der linearen Präzedenz zweier Knoten k1 < k2 kann nicht geschlossen werden, dass alle Kinder von k1 vor allen Kindern von k2 erscheinen. Zudem erscheinen Wortartenphrasen (d.i. Interpunktionen) nicht in der Satzstruktur, d.h. es gibt noch isolierte Knoten ("Wurzelstöcke"), die zusammen mit dem Syntaxbaum einen eigentlichen Wald bilden.

Die grundlegende Repräsentation für die Struktur von Sätzen soll folgendermassen aussehen:
id(NodeID, Label, nodeID)
wd(nodeID, Wortform, Morphologie)
Für obigen Baum sähen die entsprechenden Klauseln auszugsweise so aus:
id('CS'(506), 'CJ', 'S'(504)).
id('S'(504), 'SB', 'PPER'(0)).
id('S'(504), 'HD', 'VVFIN'(1)).
...
id('$,'(7).
lp('PPER'(0),'VVFIN'(1)).
lp('VVFIN'(1),'CNP'(502)).
lp('CNP'(502),'PTKVZ'(6)
wd(0, 'Sie', [3,'Pl',_,'Nom']).
wd(1, 'gehen', [3,'Pl','Pres','Ind']).
wd(2, 'gewagte', ['Pos',_,'Akk','Pl','S1']).
...
wd(7,',',_).
...
...

Ziel und Zweck

Ziel dieser Arbeit ist es, ausgehend vom der oben angegebenen logischen Repräsentation eines Satzes, Extraktionsprädikate zu definieren, die das Anbindungsverhalten von Präpositionalphrasen zu untersuchen erlauben. Diese Extraktionsprädikate werden satzweise auf annotierte Korpora angewendet und sollen am Schluss 6-Tupel liefern, die folgende Information enthalten:
tupel(Verb, EchterNominalKopf, AdjazenterNominalKopf, Präpositional, PPKern, Anbindungsentscheidung)
    1. Wortform: wörtliche Verbform
    2. Verbzusatz: wörtliches abtrennbares Verbpräfix
    3. Reflexivität: 0 oder 1
    1. wörtliche Wortform (Aber bei Bindestrichkomposita nur letztes Glied, bei Eigennamen eine Liste)
    2. Eigen: 0 oder 1
    1. wörtliche Wortform (Aber bei Bindestrichkomposita nur letztes Glied)
    2. Eigen: 0 oder 1
    1. Pre: Wortform der Präposition
    2. Post: Wortform der Postposition oder none
    3. Wortform: Pronominal-Adverb
    1. wörtliche Wortform (Aber bei Bindestrichkomposita nur letztes Glied, bei Eigennamen eine Liste) Falls none, muss bei Präpositional ein Pronominaladverb eingetragen sein.
    2. Eigen: 0 oder 1

Arbeitsschritte

  1. Konversion vom prologifizierten NEGRA-Exportformat ins id/lp/wd-Format
    1. Definition von Hilfsprädikaten
  2. Systematische Zusammenstellung über mögliche Strukturen von Verbalkomplexen, Nominal- und Präpositionalphrasen im NEGRA-Format
    1. Definition von Prädikaten, die diese Strukturen in Sätzen matchen und die für die Informationsakkumulation relevante Information zurückgeben
  3. Definition der Konfigurationen, die potentielle 6-Tupel erzeugen
  4. Definition der Feinkriterien und Informationsakkumulationen für 6-Tupel
    1. Spezifische Kriterien, die bestimmte Kandidaten ausschliessen (elliptische Phrasen,…)
    2. Informationsakkumulation: Bestimmung von Reflexivität, Eigennamen, Adpositionsgliedern (Prä-, Post- und Circumfixen), Kompositionsauflösung, abgetrennte Verbpräfixe
  5. Programmierung der Extraktion als Generate-And-Test-Verfahren: Von Konfigurationen erzeugte Kandidaten werden getestet mit Feinkriterien und falls sie die Tests bestehen, mit Information akkumuliert und in der Wissensbasis abgelegt. Per Backtracking werden Alternativen erzeugt.
  6. Vergleiche der Resultate mit den Tupeln von M. Volk

Anforderung

Benötigte Ressourcen

Literatur und Links


          Simon Clematide