/home/arvo/www/data/cl/stt

Wie schwierig ist Parsing mit deutschen Daten wirklich?

Dr. Sandra Kübler

Computerlinguistik, Universität Tübingen

Freitag, 28.04.06, 13.00 Uhr,
Raum 1.D.22
Binzmühlestrasse 14 (Oerlikon)

Abstract

In den letzten Jahren hat sich die Penn Treebank als Standard zur Evaluierung für Parser entwickelt. Damit ergibt sich die Frage, ob die Parserentwicklung nur auf das Penn Treebank spezifische Annotationsschema optimiert werden, oder ob die Parser auch erfolgreich für andere Sprachen eingesetzt werden können. Erste Ergebnisse von Dubey und Keller (2003) scheinen zu zeigen, daß der Einsatz solcher Parser beim Parsing von Deutsch zu wesentlich schlechteren Ergebnissen führt. Sie führen das auf die freie Wortstellung im Deutschen zurück. Ich möchte hier zeigen, daß diese Annahmen nur begrenzte Gültigkeit haben. Neuere Experimente haben ergeben, daß die Resultate ebenso stark vom Annotationsschema und vom Parsingalgorithmus abhängen wie von der verwendeten syntaktischen Repräsentation (Konstituenz vs. Dependenz). Im günstigsten Fall können die Ergebnisse für Englisch sogar übertroffen werden.