Programmierprojekt "Anaphernresolution mittels Machine Learning (unsupervised) "

BearbeiterIn: Beat Strasser

Betreuer: Manfred Klenner

Einführung

Nominalphrasen führen entweder neue Diskursobjekte ein (z.B. "eine Studentin"), oder aber sie beziehen sich auf bereits eingeführte ("sie" oder "die geborene Züricherin"). Die Auflösung solcher anaphorischer Bezüge ist eine wichtige Voraussetzung für das Textverstehen. Hier einige Beispiele für die unterschiedlichen Phänomene:

  1. Pronominalanaphern: "Der neue iMac ist ... Er hat ..."
  2. Nominalanaphern: "Der neue iMac ist .... Der Rechner hat ..."
  3. Apposition: "Mein neuer Rechner, ein iMac, ..."
  4. (Teilweise) Wiederholung: "Der neue Macintosh iMac hat ... Ein weiterer Vorteil des iMac ist .."
Die Auflösung von Koreferenz erfordert demnach die Berücksichtigung ganz unterschiedlicher Wissensquellen: morpho-syntaktisch (Fall 1), taxonomisch (Fall 2), syntaktisch (Fall 3) und einfaches Pattern Matching (Fall 4).

Ziel und Zweck

Das Ziel ist eine Implementierung des Ansatzes von Cardie & Wagstaff (1999). Das Verfahren soll dabei für die Behandlung deutscher Texte adaptiert werden. Grundidee des Ansatzes ist die Verwendung eines Ähnlichkeitsmasses zwischen den Nominalphrasen. Genauer: jede NP wird anhand ihrer Merkmale (z.B. Numerus, Genus, semantische Klasse) beschrieben. Mittels dieses "Merkmalsvektors" kann dann die Ähnlichkeit zwischen den NPen berechnet und ähnliche als koreferent zueinander bestimmt werden.

Arbeitsschritte

  1. Extraktion der Merkmalsvektoren aus Parsebäumen und Gertwolanalysen (evtl. GermaNet)
  2. Die Implementierung des Clusteringverfahrens nach Cardie & Wagstaff (1999).
  3. Experimentieren mit dem Ansatz, evtl. Erweiterungen und Adaptionen fürs Deutsche
  4. Evaluierung des Ansatzes / der Implementierung anhand eines vorhandenen Korpus 300 annotierten Koreferenzbeispielen

Anforderung

Perl, Python, Prolog oder Java

Literatur/ Links: