Das hier verwendete Tagset ist das ``Stuttgart/Tübinger Tagset'' (STTS), das von Anne Schiller (ehemals IMS/STR, jetzt RXRC/Grenoble), Christine Thielen (SfS/TÜB), Simone Teufel (ehemals IMS/STR, jetzt Cogsci/Edinburgh) und Christine Stöckert (IMS/STR) entwickelt wurde.
Siehe auch: Tagging-Guidelines etc. (in Tübingen)
Im Rahmen des UIS-Projektes (Universitäts-Informations-System) trainieren Computerlinguisten der Uni Zürich den Brill Tagger für das Deutsche mit einer leicht angepassten Variante des STTS.
Das vorliegende Dokument gibt eine Übersicht über das STTS und die Zürcher Anpassungen.
ADJA attributives Adjektiv [das] große [Haus] ADJD adverbiales oder [er fährt] schnell prädikatives Adjektiv [er ist] schnell
In UIS gleich verwendet, beachte:
Ordinalzahlen sind Adjektive. [der] neunte [August]
Beachte, dass der Übergang zwischen ADV und ADJD fliessend sein kann. Wie in STTS ist unser Gebrauch von /ADJD permissiv:
ADJD [Es wird] flächendeckend [eingeführt]
ADV Adverb schon, bald, doch
In UIS gleich.
APPR Präposition; Zirkumposition links in [der Stadt], ohne [mich] APPRART Präposition mit Artikel im [Haus], zur [Sache] APPO Postposition [ihm] zufolge, [der Sache] wegen APZR Zirkumposition rechts [von jetzt] an
In UIS gleich. Interessanterweise gibt es auch /APZR ohne dazugehörige /APPR:
APZR mit Präposition über [das Ziel] hinaus APZR ohne Präposition (sondern mit /PAV) darüber hinaus
ART bestimmter oder der, die, das, unbestimmter Artikel ein, eine, ...
In UIS unterscheiden wir zwischen bestimmtem und unbestimmten Artikeln:
- ARTDEF bestimmter Artikel der, die, das, ...
- ARTIND unbestimmter Artikel ein, eine, ...
CARD Kardinalzahl zwei [Männer], [im Jahre] 1994
Anders als in STTS kennt das UIS ein Tag /CARDNUM für Zahlen in arabischen oder römischen Ziffern:
- CARD Kardinalzahl als Wort zwei [Männer] - CARDNUM Kardinalzahl als Ziffer [im Jahre] 1994
KOUI unterordnende Konjunktion um [zu leben], mit ``zu'' und Infinitiv anstatt [zu fragen] KOUS unterordnende Konjunktion weil, daß, damit, mit Satz wenn, ob KON nebenordnende Konjunktion und, oder, aber KOKOM Vergleichskonjunktion als, wie
In UIS gleich, ausser bei den satzwertigen Abkürzungen. Diese erhalten bei uns das Tag /KONS.
KONS Abkürzung für Konjunktion und Satz usw. etc.
NN normales Nomen Tisch, Herr, [das] Reisen NE Eigennamen Hans, Hamburg, HSV
PDS substituierendes Demonstrativ- dieser, jener pronomen PDAT attribuierendes Demonstrativ- jener [Mensch] pronomen PIS substituierendes Indefinit- keiner, viele, man, niemand pronomen PIAT attribuierendes Indefinit- kein [Mensch], pronomen ohne Determiner irgendein [Glas] PIDAT attribuierendes Indefinit- [ein] wenig [Wasser], pronomen mit Determiner [die] beiden [Brüder] PPER irreflexives Personalpronomen ich, er, ihm, mich, dir PPOSS substituierendes Possessiv- meins, deiner pronomen PPOSAT attribuierendes Possessivpronomen mein [Buch], deine [Mutter] PRELS substituierendes Relativpronomen [der Hund ,] der PRELAT attribuierendes Relativpronomen [der Mann ,] dessen [Hund] PRF reflexives Personalpronomen sich, einander, dich, mir PWS substituierendes wer, was Interrogativpronomen PWAT attribuierendes welche [Farbe], Interrogativpronomen wessen [Hut] PWAV adverbiales Interrogativ- warum, wo, wann, oder Relativpronomen worüber, wobei PAV Pronominaladverb dafür, dabei, deswegen, trotzdem
In UIS vorläufig gleich. Die Unterscheidung zwischen /PIAT und /PIDAT ist aber nicht unbedingt sinnvoll und wird vielleicht später aufgegeben.
PTKZU ``zu'' vor Infinitiv zu [gehen] PTKNEG Negationspartikel nicht PTKVZ abgetrennter Verbzusatz [er kommt] an, [er fährt] rad PTKANT Antwortpartikel ja, nein, danke, bitte PTKA Partikel bei Adjektiv am [schönsten], oder Adverb zu [schnell]
In UIS gleich.
VVFIN finites Verb, voll [du] gehst, [wir] kommen [an] VVIMP Imperativ, voll komm [!] VVINF Infinitiv, voll gehen, ankommen VVIZU Infinitiv mit ``zu'', voll anzukommen, loszulassen VVPP Partizip Perfekt, voll gegangen, angekommen VAFIN finites Verb, aux [du] bist, [wir] werden VAIMP Imperativ, aux sei [ruhig !] VAINF Infinitiv, aux werden, sein VAPP Partizip Perfekt, aux gewesen VMFIN finites Verb, modal dürfen VMINF Infinitiv, modal wollen VMPP Partizip Perfekt, modal gekonnt, [er hat gehen] können
In UIS fast gleich. Anders als in STTS werden aber Verben wie sein und haben nicht prinzipiell als /VA* klassifiziert, sondern bei Vollverbcharakter als /VV*:
- VAFIN finites Verb, aux [du] bist [gekommen] - VVFIN finites Verb, Vollverbcharakter [sie] ist [gross]
SGML SGML Markup <P>/SGML
In UIS werden alle SGML-Tags mit 'SGML' getaggt, ausser untenstehende Satzzeichen (siehe 2.12).
SPELL Buchstabierfolge S-C-H-W-E-I-K-L
Fehlt in UIS.
TRUNC Kompositions-Erstglied An-/TRUNC [und Abreise]
In UIS gleich.
FM Fremdsprachliches Material [Er hat das mit ``] A/FM big/FM fish/FM ['' übersetzt]
In UIS gleich.
ITJ Interjektion mhm, ach, tja
In UIS gleich.
XY Nichtwort, Sonderzeichen 3:7, H2O, enthaltend D2XW3
In UIS gleich.
Aber zusätzlich: (anders als in STTS)
XX Unbekannt und vom Tagger nicht interpretierbar!
Herr Dr./NN iur./ADJA U./NE Meier Ferien bzw./KON vorlesungsfreie Zeit im WS/NN 1997-98
Mehrteilige Abkürzungen werden zusammengezogen, wenn sie eine idiomatische Bedeutung haben.
das macht z.B./ADV diesen Teil der Arbeit leichter
In UIS verwenden wir desweiteren das folgende sonstige Nichtinterpunktions-Tag:
LINUM Listennummer (Titelhierarchie)
$, Komma , $. Satzbeendende Interpunktion . ? ! ; : $( sonstige Satzzeichen; satzintern - [,]()
Ganz anders in UIS. Wir verwenden folgende Tags (in alphabetischer Reihenfolge):
- [sic]Gedankenstrich C Comma = Komma , Co Colon = Doppelpunkt : Ex Exclamation Mark = Ausrufezeichen ! Pc Parenthesis closed = Klammer zu ) Po Parenthesis opened = Klammer auf ( Q Question Mark = Fragezeichen ? QMc Quotation Mark closed = Anführung zu " QMo Quotation Mark opened = Anführung auf " S Full Stop = Satzpunkt . Se Semicolon = Strichpunkt ;