Verfügbarkeit des Taggers

Der Tagger für das Deutsche an der Universität Zürich läuft auf Sun UNIX-Workstations unter dem Betriebssystem Sun-OS oder Solaris. Die Module zur Textvorbereitung (Satzendeerkennung, Identifikation von Abkürzungen und Zahlen) und Textnachbereitung (Erweiterte Satzendeerkennung, Korrektur einiger Taggingfehler) sind Perl-Skripts. Der eigentliche Tagger besteht aus compilierten C-Programmen und Textdateien (das antrainierte Tagger-Lexikon und die Regeldateien).

Der Tagger kann von Eric Brill's Homepage heruntergeladen werden. Als Trainingsmaterial für das Deutsche bieten sich die NEGRA- und TIGER-Baumbanken an. Wir haben den Brill-Tagger über eigenen, manuell kontrollierten Texten (rund 58'000 Wörtern; Themenbereich: Jahresberichte der Universität Zürich) trainiert. Wenn dieses Trainingsmaterial für Sie von besonderem Interesse ist, wenden Sie sich bitte an:

Martin Volk oder Gerold Schneider

Date of last modification: 05. July 2004