Programmierprojekt "Aufbereitung dependenzbasierter Syntaxstrukturen für die Kernsatz-Erkennung"

BearbeiterIn:Jennifer Ebling

Betreuer: Simon Clematide

Einführung

Für das gemeinsam mit den Politologen entwickelte Annotationsprojekt sollen die dependenzbasierten Syntaxstrukturen in ein Format gebracht werden, welches für die automatische Extraktion von Kernsätzen (Trippel bestehend aus Akteur/Thema - Prädikat - Akteur/Thema) geeignet ist. Für die Exploration der Daten und zur Formulierung der Extraktionskonfigurationen soll das System/Format verwendet werden, das Kaljurand et al.(2006) für die Extraktion von Relationen im Biomedizinischen Bereich verwenden.

Ziel und Zweck

Ziel dieses Programmierprojekts ist es, die Dependenzinformation soweit aufzubereiten und umzuformen, dass eine natürliche Spezifikation der Extraktionsmuster für die Kernsätze ermöglicht wird. Dies involviert die Erkennung von Akteuren und Themen als domänenabhängige Fachbegriffe.

Arbeitsschritte

  1. Aufbereitung des textuellen XML-Formats des Dependenzparsers in Prolog
    1. Konversion in Prolog-lesbares Format mit dem XML-SGML-Package von SWI-PROLOG; Aufbau des Prolog-Formats token/(s)dhp/term/sentence
  2. Reduktion der Subjektabhängigkeit in ein geeigneteres Format für die Formulierung von synta. Reduktion der Hilfsverbketten für Subjekte. D.h. es wird eine sekundäre Dependenz-Relation SSUBJ erzeugt (semantic subject), welche direkt vom Vollverb abhängig ist. Format: dhp(From, To, '','SSUBJ',SENTID). Bei Passivsätzen wir eine Relation der Form dhp(From,To,'','SOBJA', SENTID) erzeugt.
    1. Behandlung von Subjekten in Aktivsätzen mit Hilfsverbketten
    2. Behandlung von Subjekten in Passivsätzen
    3. Behandlung von Objekten in Passivsätzen
    4. Behandlung von leeren Subjekten in koordinierten Sätzen
    5. Behandlung von koordinierten Subjekten in Sätzen.
  3. Ev. Erkennung von Akteuren/Themen als Fachbegriffe

Anforderung

Benötigte Ressourcen

Literatur und Links


          Simon Clematide