Zusammenfassung der Dissertation

Martin Volk: Einsatz einer Testsatzsammlung im Grammar Engineering. (Dissertation. Universität Koblenz. 1994.) "Sprache und Information" Bd. 30. Max Niemeyer Verlag. 1995.

Interessenten: Computerlinguisten, Sprachwissenschaftler

Schlagworte: Grammatik, Testen, natürlichsprachliche Systeme, Werkzeuge für Computerlinguisten

Abstract:

Natürlichsprachliche Systeme (von Grammatikprüfprogrammen bis zu Maschineller Übersetzung) umfassen komplexe formale Grammatiken. Aufgrund der Komplexität erfordert deren Aufbau eine ingenieur-wissenschaftliche Herangehensweise, die als "Grammar Engineering" bezeichnet wird. Eine grundlegende Ressource im Grammar Engineering-Prozess ist eine Testsatzsammlung, eine systematische Sammlung von Sätzen der Sprache, wobei jeder Satz ein eigenes grammatisches Problem exemplifiziert. Eine solche Satzsammlung kann auf vielfache Weise die Entwicklung von formalen Grammatiken unterstützen. Es wird gezeigt, wie inkrementelles Grammatiktesten mit Hilfe einer Testsatzsammlung organisiert werden kann. Die Vorstellung einer in Prolog implementierten Grammatik-Testumgebung demonstriert die praktische Umsetzbarkeit.

Längere Zusammenfassung:

Natürlichsprachliche Systeme (von Grammatikprüfprogrammen bis zu Maschineller Übersetzung) umfassen komplexe formale Grammatiken. Aufgrund der Komplexität erfordert deren Aufbau eine ingenieur-wissenschaftliche Herangehensweise, die als "Grammar Engineering" bezeichnet wird. Ausgehend von den komplexen Anforderungen der natürlichen Sprache an eine formale Grammatik werden verschiedene Grammatikmodelle und speziell die Bedeutung von Unifikationsgrammatiken für die Umsetzung in natürlichsprachliche Systeme diskutiert.

Grammar Engineering wird hergeleitet in Analogie zum Software Engineering und ein entsprechendes Phasenmodell für die Grammatikentwicklung wird vorgestellt. Eine grundlegende Ressource in diesem Modell ist eine Testsatzsammlung, eine systematische Sammlung von Sätzen der Sprache, wobei jeder Satz eigene grammatische Probleme exemplifiziert. Es wird erläutert, wie eine Testsatzsammlung aufgebaut und mit SGML strukturiert werden kann. SGML (Standard Generalized Markup Language) dient zur Markierung des Datenbankschemas für die Testsätze, welches durch Vererbung von linguistischen Merkmalen redundanzarm aufgebaut ist. Eine Testsatzsammlung kann auf vielfache Weise die Entwicklung von Grammatiken unterstützen. Inkrementelles Testen einer Grammatik wird detailliert vorgestellt, aber auch andere Testverfahren sowie der Einsatz der Testsatzsammlung für die Dokumentation der Grammatik werden angesprochen. Die Vorstellung einer in Prolog implementierten Grammatik-Testumgebung (GTU), die verschiedene Versionen einer Testsatzsammlung enthält, demonstriert die praktische Umsetzbarkeit.