Wie schwierig ist Parsing mit deutschen Daten wirklich?
Dr. Sandra Kübler
Computerlinguistik, Universität Tübingen
Freitag, 28.04.06, 13.00 Uhr,
Raum 1.D.22
Binzmühlestrasse 14 (Oerlikon)
Abstract
In den letzten Jahren hat sich die Penn Treebank als Standard zur
Evaluierung für Parser entwickelt. Damit ergibt sich die Frage, ob die
Parserentwicklung nur auf das Penn Treebank spezifische
Annotationsschema optimiert werden, oder ob die Parser auch
erfolgreich für andere Sprachen eingesetzt werden können. Erste
Ergebnisse von Dubey und Keller (2003) scheinen zu zeigen, daß der
Einsatz solcher Parser beim Parsing von Deutsch zu wesentlich
schlechteren Ergebnissen führt. Sie führen das auf die freie
Wortstellung im Deutschen zurück. Ich möchte hier zeigen, daß diese
Annahmen nur begrenzte Gültigkeit haben. Neuere Experimente haben
ergeben, daß die Resultate ebenso stark vom Annotationsschema und vom
Parsingalgorithmus abhängen wie von der verwendeten syntaktischen
Repräsentation (Konstituenz vs. Dependenz). Im günstigsten Fall können
die Ergebnisse für Englisch sogar übertroffen werden.