Tagger für das Deutsche
Die Computerlinguistik-Gruppe an der Universität Zürich
trainierte den Brill-Tagger
für das Deutsche. Der Tagger arbeitet regelbasiert und weist
jedem Wort der Eingabe ein Wortart-Tag zu. Der vorliegende Tagger
basiert auf einem Trainingskorpus von rund 58'000 Wörtern
(Themenbereich: Jahresberichte der Universität Zürich)[1]. Als Tagset wurde das STTS gewählt, das rund 50 Tags
umfasst (plus Tags für Satzzeichen).
Der Tagger kann hier getestet werden. Die Eingabe wird an den
Tagger geschickt und das Ergebnis wird kommentiert
zurückgeliefert.
Erläuterungen zu den Optionen
- Option mit Lexikon-Ausgabe: Es wird angezeigt, welche
Wörter mit welchen Wortarten-Symbolen im Tagger-Lexikon
stehen und welche Wörter dem Tagger demensprechend
unbekannt sind.
- Option mit Gertwol-Einsatz: Es werden sämtliche
Eingabe-Wörter, die nicht im Tagger-Lexikon stehen,
durch Gertwol
analysiert, und sämtliche von Gertwol gelieferten
Wortarten werden dem Tagger-Lexikon temporär
hinzugefügt. Der Einsatz von Gertwol führt nicht immer
zu besseren Tagging-Ergebnissen, da die gelieferten
Wortarten nicht gewichtet sind, während der Tagger
erwartet, dass das wahrscheinlichste Tag an erster Stelle
steht.
- Option mit Clause-Grenzen-Erkennung: Nach dem Tagging
werden die Clause-Grenzen bestimmt. Ein Clause ist
definiert als ein Teilsatz mit einem Vollverb, seinen
Komplementen und Ergänzungen. Es handelt sich also um
eine Vorstrukturierung der grammatischen Struktur des
Satzes, die mit Hilfe von Mustererkennung über
Wortarten-Symbolen erzielt wird.
Autoren: Martin
Volk, Gerold
Schneider and Simon Clematide
[1] Die folgenden
Personen haben uns bei der manuellen Korrektur des Korpus
geholfen: Sven Hartrumpf (FernUni Hagen), Sandra Kuebler (Uni
Duisburg), Andreas Mertens (FernUni Hagen) und Elke Teich
(Macquarie University). Dafür danken wir herzlich.
Institut für Computerlinguistik der Universität Zürich