Programmierprojekt "Anaphernresolution mittels Machine Learning (supervised)"

BearbeiterIn: Daniela Landert

Betreuer: Manfred Klenner

Einführung

Personal- und Possesivpronomen beziehen sich auf bereits eingeführte Diskursobjekte.  Die Auflösung solcher anaphorischer Bezüge ist eine wichtige Voraussetzung für das Textverstehen. Hier einige Beispiele für die unterschiedlichen Phänomene:

Ein anderes Kohäsionsmittel sind (partielle) Wiederholungen (auch substrings)
und Nominalanaphern (bleiben im Projekt ausgeklammert):
Die Auflösung von Koreferenz erfordert demnach die Berücksichtigung ganz unterschiedlicher Wissensquellen: morpho-syntaktisch  (Fall 1 und 2), Pattern Matching (Fall 3) und taxonomisches Wissen (Fall 4).

Ziel und Zweck

Das Ziel ist eine Sammlung von Skripts (z.B. Perl) zum Training und zur Evaluierung einer Anaphernresolution basierend auf Memory-based Learning (Timbl). Timbl erwartet als Eingabe Merkmalsvektoren, wobei jeder Vektor hinsichtlich seiner Klasse bestimmt sein muss (z.B. positive und negative Beispiele einer anaphorischen Beziehung). Diese Klasse wird dann im Anwendungsfall (bei der Evaluierung) vorhergesagt. Die Information in den Vektoren wird linguistischer Natur sein (siehe den Artikel von Strube  & Müller, 2003). Es geht darum, den Prozess der Extraktion dieser Information aus verschiedenen CL-Tools zu automatisieren. Eingabe (Anwendungsfall) ist ein nicht klassifizierter Vektor, der einen möglichen anaphorischen Bezug repräsentiert, Ausgabe ist die Klassifikationsentscheidung.

Arbeitsschritte

  1. Verwendung einer Treebank (Negra) zur Bestimmung funktionaler Information (Subjekt, ..)
  2. Verwendung von Gertwol zur Bestimmung morphologischer Information (Genus, ..)
  3. evtl. Verwendung von GermaNet zur Bestimmung semantischer Information (semantische Klasse der NP-Köpfe)
  4. Training (automatisches Erzeugen positiver und negativer Beispiele (Timbl Training)
  5. Evaluierung und ggfs. Adjustierung

Anforderung

Erforderlich sind Kenntnisse einer Skriptsprache (Perl oder Python) und Prolog.

Literatur/ Links: