Programmierprojekt "Anaphernresolution mittels Machine Learning (unsupervised)
"
BearbeiterIn: Beat Strasser
Betreuer: Manfred Klenner
Einführung
Nominalphrasen führen entweder neue Diskursobjekte ein (z.B. "eine
Studentin"), oder aber sie beziehen sich auf bereits eingeführte ("sie"
oder "die geborene Züricherin"). Die Auflösung solcher anaphorischer
Bezüge ist eine wichtige Voraussetzung für das Textverstehen. Hier
einige Beispiele für die unterschiedlichen Phänomene:
- Pronominalanaphern: "Der neue iMac ist ... Er hat
..."
- Nominalanaphern: "Der neue iMac ist .... Der Rechner
hat ..."
- Apposition: "Mein neuer Rechner, ein iMac, ..."
- (Teilweise) Wiederholung: "Der neue Macintosh iMac hat ...
Ein weiterer Vorteil des iMac ist .."
Die Auflösung von Koreferenz erfordert demnach die Berücksichtigung
ganz unterschiedlicher Wissensquellen: morpho-syntaktisch (Fall 1), taxonomisch
(Fall 2), syntaktisch (Fall 3) und einfaches Pattern Matching (Fall 4).
Ziel und Zweck
Das Ziel ist eine Implementierung des Ansatzes von Cardie &
Wagstaff (1999). Das Verfahren soll dabei für die Behandlung deutscher
Texte adaptiert werden. Grundidee des Ansatzes ist die Verwendung eines Ähnlichkeitsmasses
zwischen den Nominalphrasen. Genauer: jede NP wird anhand ihrer Merkmale
(z.B. Numerus, Genus, semantische Klasse) beschrieben. Mittels dieses "Merkmalsvektors"
kann dann die Ähnlichkeit zwischen den NPen berechnet und ähnliche
als koreferent zueinander bestimmt werden.
Arbeitsschritte
- Extraktion der Merkmalsvektoren aus Parsebäumen und Gertwolanalysen (evtl. GermaNet)
- Die Implementierung des Clusteringverfahrens nach Cardie & Wagstaff
(1999).
- Experimentieren mit dem Ansatz, evtl. Erweiterungen und Adaptionen fürs Deutsche
- Evaluierung des Ansatzes / der Implementierung anhand eines vorhandenen
Korpus 300 annotierten Koreferenzbeispielen
Anforderung
Perl, Python, Prolog oder Java
Literatur/ Links: