Morphologieanalyse und Lexikonaufbau (7. Vorlesung)
Dozent: Martin VolkLit.: [Brill 92] und [Brill 94]
Die CL-Gruppe in Zürich hat den Brill-Tagger für das Deutsche trainiert.
Vorteile von regelbasierten Systemen:
Brills Tagger:
Der Algorithmus wendet seine gelernten POS-Wahrscheinlichkeiten an und vergleicht seine Tagging-Ergebnisse mit den im getaggten Corpus vorgegebenen und leitet Änderungsregeln zu vorgegebenen Regelmustern ab:
Change tag `a' to tag `b' when:
Für jede Regelvariante <tag_a, tag_b, Variantennummer> wird berechnet, wie oft sie richtige und wie oft sie falsche Ergebnisse liefert. Die Differenz ergibt die Verbesserungssumme. Die Regelvariante mit der besten Verbesserungssumme wird angewendet.
Bsp.: Der Tagger markiert ursprünglich 159 Wörter als Verben, die Nomen sein sollten. Mit der Regel "Ändere Tag von Verb zu Nomen, falls eines der zwei vorhergehenden Wörter als Determiner getaggt ist." werden 98 Fälle (von den 159) korrigiert, aber es werden 18 andere Fehler erzeugt. Die Verbesserungssumme ist also (98-18=) 80.
Bsp. für zwei vom englischen System ermittelte Regeln:
1. TO IN Next-tag AT
Ein mit TO (to-Infinitiv) getaggtes Wort wird mit IN (Präposition) getaggt, falls das nächste Wort mit AT (Artikel) getaggt ist.
2. VBN VBD Prev-Word-is-cap Yes
Ein mit VBN (Past Part. Verb) getaggtes Wort wird mit VBD (Past Verb) getaggt, falls das vorhergehende Wort mit Grossbuchstaben beginnt (d.h. ein Eigenname ist).
Der Algorithmus für die englische Version hat eine Fehlerquote von 7,9%, wenn nur die Schritte 1-3 angewendet werden. Wenn auch die 71 automatisch ermittelten Regeln eingesetzt werden, verbessert sich das System von 7,9% auf 5,1% Fehlerrate.
==> Brills These: Regelbasiertes Tagging ist genauso gut wie probabilistisches Tagging. Mit Hilfe eines Lexikons kann es noch verbessert werden.
von Martin Volk und Gerold Schneider
rund 70'000 Wörter aus der Frankfurter Rundschau (manuell getaggt)
STTS (Stuttgart-Tübingen Tagset) mit 54 Tags einschl. 3 Tags für Satzzeichen
ambiguity | tokens | in % | correct | in % | lexical errors | in % | disambig. errors | in % |
---|---|---|---|---|---|---|---|---|
0 | 1342 | 15.10 | 1128 | 84.05 | 214 | 15.95 | 0 | 0.00 |
1 | 5401 | 60.77 | 5330 | 98.69 | 71 | 1.31 | 0 | 0.00 |
2 | 993 | 11.17 | 929 | 93.55 | 3 | 0.30 | 61 | 6.14 |
3 | 795 | 8.95 | 757 | 95.22 | 0 | 0.00 | 38 | 4.78 |
4 | 260 | 2.93 | 240 | 92.31 | 0 | 0.00 | 20 | 7.69 |
5 | 96 | 1.08 | 83 | 86.46 | 0 | 0.00 | 13 | 13.54 |
total | 8887 | 100.00 | 8467 | 95.27 | 288 | 3.24 | 132 | 1.49 |
ambiguity | tokens | in % | correct | in % | lexical errors | in % | disambig. errors | in % |
---|---|---|---|---|---|---|---|---|
0 | 1342 | 15.10 | 1094 | 81.52 | 248 | 18.48 | 0 | 0.00 |
1 | 5401 | 60.77 | 5330 | 98.69 | 71 | 1.31 | 0 | 0.00 |
2 | 993 | 11.17 | 906 | 91.24 | 3 | 0.30 | 84 | 8.46 |
3 | 795 | 8.95 | 758 | 95.35 | 0 | 0.00 | 37 | 4.65 |
4 | 260 | 2.93 | 245 | 94.23 | 0 | 0.00 | 15 | 5.77 |
5 | 96 | 1.08 | 87 | 90.62 | 0 | 0.00 | 9 | 9.38 |
total | 8887 | 100.00 | 8420 | 94.75 | 322 | 3.62 | 145 | 1.63 |
TreeTagger Fehler | Brill-Tagger Fehler | ||||
---|---|---|---|---|---|
Anzahl | korrektes Tag | Tagger-Tag | Anzahl | korrektes Tag | Tagger-Tag |
48 | NE | NN | 54 | NE | NN |
21 | VVINF | VVFIN | 31 | NN | NE |
20 | NN | NE | 19 | VVFIN | VVINF |
17 | VVFIN | VVINF | 19 | VVFIN | ADJA |
10 | VVPP | VVFIN | 17 | VVINF | VVFIN |
10 | VVFIN | VVPP | 15 | VVPP | VVFIN |
8 | CARDNUM | VMPP | 11 | VVPP | ADJD |
7 | ADJD | VVFIN | 11 | ADJD | VVFIN |
7 | ADJD | ADV | 8 | VVINF | ADJA |
Um das Problem der Erkennung unbekannter Wörter einzudämmen, kann man ein `externes' Lexikon zuschalten. Z.B. kann man alle unbekannten Wörter zunächst von Gertwol analysieren lassen, die Gertwol-Ausgabe auf die möglichen Tags abbilden und dann dem Tagger-Lexikon hinzufügen. Dadurch kann man die Tagger-Genauigkeit weiter verbessern. Die besten Ergebnisse erzielten wir mit der Kombination von Gertwol und dem TreeTagger.
ambiguity | tokens | in % | correct | in % | lexical errors | in % | disambig. errors | in % |
---|---|---|---|---|---|---|---|---|
0 | 109 | 1.23 | 72 | 66.06 | 37 | 33.94 | 0 | 0.00 |
1 | 6307 | 70.97 | 6209 | 98.45 | 98 | 1.55 | 0 | 0.00 |
2 | 1224 | 13.77 | 1119 | 91.42 | 10 | 0.82 | 95 | 7.76 |
3 | 852 | 9.59 | 805 | 94.48 | 2 | 0.23 | 45 | 5.28 |
4 | 296 | 3.33 | 266 | 89.86 | 0 | 0.00 | 30 | 10.14 |
5 | 99 | 1.11 | 86 | 86.87 | 0 | 0.00 | 13 | 13.13 |
total | 8887 | 100.00 | 8557 | 96.29 | 147 | 1.65 | 183 | 2.06 |
Lit.: [Chanod und Tapanainen 95]: "Tagging French - comparing a statistical and a constraint-based method"; Online-Version (Postscript 130 KByte).
Die untersuchte statistische Methode entspricht der von Cutting et al. entwickelten und führte auch für Französisch zu 96,8% korrektem Tagging.
Das Ändern der `Parser-Tendenz' (engl. bias) ist manchmal sehr kompliziert. Die Sequenz
Det N N/V Präp (Wie in Le train part à cinq heures.)
wird oft falsch disambiguiert. Der Tagger bevorzugt die N-Lesart für das Verb. Zwei Tendenzen wurden hinzugefügt:
Auf ein Singular-Nomen folgt meist kein Nomen. Auf ein Singular-Nomen folgt oft ein Singular-3.Pers.-Verb.
Danach wurde der obige Satz richtig disambiguiert, aber die Fehlerrate insgesamt stieg um 50%.
Die constraint-basierte Methode (nach Chanod, Tapanainen)
Für die häufigsten ambigen Wortformen werden Regeln aufgestellt, die kontextuelle Bedingungen angeben. (Dadurch wird z.B. die Mehrdeutigkeit zwischen Clitic und Determiner für le oder la geklärt.)
Je le veux. (Ich will es.) Je travaille dans le jardin. (Ich arbeite im Garten.)
Einige dieser häufigsten ambigen Wortformen haben sehr seltene Lesarten: Die Hilfsverben a und est können auch Nomen sein. Für diese Fälle wird genau festgelegt, wie der Kontext aussehen muss, damit diese Wortformen die seltene Lesart haben können. In allen anderen Fällen wird die wahrscheinlichere Lesart angenommen.
Für schwierigere Fälle werden kontextuelle Heuristiken aufgestellt.
Bsp. Unterscheidung zwischen des als Determiner bzw. kontrahierter Präposition-Determiner
Jean mange des pommes. Jean aime le bruit des vagues.
Eindeutige Regelung nur über Verbsubkategorisierung möglich. Hier Heuristiken:
Für weitere Probleme werden nicht-kontextuelle Heuristiken aufgestellt. Sie entsprechen lexikalischen Wahrscheinlichkeiten. (Die Autoren raten, welche Lesart wahrscheinlicher ist.) Bsp.:
Präposition vor Adjektiv Pronomen vor Partizip Perfekt
Werden nur auf die Fälle angewendet, die durch die vorherigen Schritte nicht disambiguiert werden konnten.
Regeln und Heuristiken sind als Transducer implementiert.
39 Regeln 25 kontextuelle Heuristiken 11 nicht-kontextuelle Heuristiken
Test A: Corpus mit 255 Sätzen (5752 Wörter)
=> 54% Wörter sind mehrdeutig. Nach Anwendung aller Regeln: 1,3% Fehlerrate (s. Tabelle 1)
Test B: Zeitungscorpus mit 12.000 Wörtern (mit Schreibfehlern und vielen Eigennamen)
Nach Anwendung aller Regeln: 2,5% Fehlerrate (s. Tabelle 2)
Fehler durch Mehr-Wort-Ausdrücke (15 Fehler).
Lösung: Lexikalisierung der Ausdrücke
korrigierbare Fehler (41 Fehler)
Lösung: Korrektur und Ergänzung der Regeln (das vorliegende Ergebnis wurde unter Zeitbegrenzung erzielt.)
Bsp.: "Prep + Clitic + Fin-Verb" war nicht verboten und wurde anwendet auf
a l'est
problematische (schwer zu korrigierende) Fehler (28 Fehler)