Programmierprojekt "Aufbereitung dependenzbasierter Syntaxstrukturen für die Kernsatz-Erkennung"

BearbeiterIn:Jennifer Ebling

Betreuer: Simon Clematide

Einführung

Für das gemeinsam mit den Politologen entwickelte Annotationsprojekt sollen die dependenzbasierten Syntaxstrukturen in ein Format gebracht werden, welches für die automatische Extraktion von Kernsätzen (Trippel bestehend aus Akteur/Thema - Prädikat - Akteur/Thema) geeignet ist. Für die Exploration der Daten und zur Formulierung der Extraktionskonfigurationen soll das System/Format verwendet werden, das Kaljurand et al.(2006) für die Extraktion von Relationen im Biomedizinischen Bereich verwenden.

Ziel dieses Programmierprojekts ist es, die Dependenzinformation soweit aufzubereiten und umzuformen, dass eine natürliche Spezifikation der Extraktionsmuster für die Kernsätze ermöglicht wird. Dies involviert die Erkennung von Akteuren und Themen als domänenabhängige Fachbegriffe.

Aufbereitung des textuellen XML-Formats des Dependenzparsers in Prolog
1. Konversion in Prolog-lesbares Format mit dem XML-SGML-Package von SWI-PROLOG; Aufbau des Prolog-Formats token/(s)dhp/term/sentence
Reduktion der Subjektabhängigkeit in ein geeigneteres Format für die Formulierung von synta. Reduktion der Hilfsverbketten für Subjekte. D.h. es wird eine sekundäre Dependenz-Relation SSUBJ erzeugt (semantic subject), welche direkt vom Vollverb abhängig ist. Format: dhp(From, To, '','SSUBJ',SENTID). Bei Passivsätzen wir eine Relation der Form dhp(From,To,'','SOBJA', SENTID) erzeugt.
1. Behandlung von Subjekten in Aktivsätzen mit Hilfsverbketten
2. Behandlung von Subjekten in Passivsätzen
3. Behandlung von Objekten in Passivsätzen
4. Behandlung von leeren Subjekten in koordinierten Sätzen
5. Behandlung von koordinierten Subjekten in Sätzen.
Ev. Erkennung von Akteuren/Themen als Fachbegriffe

Bereitschaft, sich mit einer Dependenzgrammatik des Deutschen auseinanderzusetzen
Mittlere Fähigkeiten in PROLOG

Grammatikmodell-Dokumentation, Output des Papa-Parsers, Formatinformation
Jede XML-Analyse wird mit einem <annotation id="nzz_23_12_2003-3" lattice="wordgraph0" nowords="5" noedges="5">, wo das Attribut wordgraph aufgebaut ist nach dem Schema: ARTIKELID-SATZID . Jeder Satz beginnt mit dem Token 0. (D.h. jedes Token wird durch die Position vor dem Token identifiziert.) D.h. das 5. Token des Satzes 23 des Artikels nzz_23_12_2003 wird mit dem Prolog-Atom 'nzz_23_12_2003-23-5' identifiziert. Der Bindestrich kommt immer nur als Trenner vor.
Format der Prolog-Relationen
token/5: token(Atom,Atom,Atom,Atom,Atom)
token(TokenID, Wortform, Lemma,Wortart,SatzID)
token('m953692, 'expression', 'expression', 'NN', 'm95369245-s1').

dhp/5: dhp(Atom, Atom,Atom,Atom,Atom)
dhp('m90151654-w124', 'm90151654-w122', 'appos', '', 'm90151654-s6').
dhp(KopfID,ModifikatorID,Dependenzlabel,UNKNOWN,SatzID).

term(KopfID,Wordform,Typen-Klassifikation,WordID-Liste)
term('m95369245-w115','lipoxygenase metabolites','G#protein_family_or_group',['m95369245-w115','m95369245-w116']).

[Kaljurand et al.(2006)Kaljurand, Rinaldi, and Schneider] Kaarel Kaljurand, Fabio Rinaldi, and Gerold Schneider. Prolog-based query interface to syntactic dependencies extracted from biomedical literature. Technical report, IFI, University of Zurich, 2006. URL ftp://ftp.ifi.unizh.ch/pub/techreports/TR-2006/ifi-2006.04.pdf. Technical Report IFI-2006.04.
CDG-Dependenzparser aus Hamburg: http://nats-www.informatik.uni-hamburg.de/parse/TWiki/CdgParserDemo

Simon Clematide