Tagger für das Deutsche

Die Computerlinguistik-Gruppe an der Universität Zürich trainierte den Brill-Tagger für das Deutsche. Der Tagger arbeitet regelbasiert und weist jedem Wort der Eingabe ein Wortart-Tag zu. Der vorliegende Tagger basiert auf einem Trainingskorpus von rund 58'000 Wörtern (Themenbereich: Jahresberichte der Universität Zürich)[1]. Als Tagset wurde das STTS gewählt, das rund 50 Tags umfasst (plus Tags für Satzzeichen).

Der Tagger kann hier getestet werden. Die Eingabe wird an den Tagger geschickt und das Ergebnis wird kommentiert zurückgeliefert.


Bitte hier einen oder mehrere Sätze eingeben: (Nicht mehr als 70 Wörter!)

Nur Tagger-Ausgabe
Lexikon-Ausgabe und Tagger-Ausgabe
Lexikon-Ausgabe, Gertwol-Einsatz und Tagger-Ausgabe
Lexikon-Ausgabe, Tagger-Ausgabe und Clause-Grenzen-Erkennung

Erläuterungen zu den Optionen


Hinweise zur Verfügbarkeit

Autoren: Martin Volk, Gerold Schneider and Simon Clematide

[1] Die folgenden Personen haben uns bei der manuellen Korrektur des Korpus geholfen: Sven Hartrumpf (FernUni Hagen), Sandra Kuebler (Uni Duisburg), Andreas Mertens (FernUni Hagen) und Elke Teich (Macquarie University). Dafür danken wir herzlich.


Institut für Computerlinguistik der Universität Zürich