Regel-basiertes Tagging

Morphologieanalyse und Lexikonaufbau (7. Vorlesung)

Dozent: Martin Volk

Übersicht


Regel-basiertes Tagging (Brill-Tagging)

Lit.: [Brill 92] und [Brill 94]

Die CL-Gruppe in Zürich hat den Brill-Tagger für das Deutsche trainiert.

Vorteile von regelbasierten Systemen:

Brills Tagger:

Lernphase

  1. Zuerst werden POS-Wahrscheinlichkeiten aus einem getaggten Korpus (hier Brown Corpus) ermittelt. Damit wird ein Vollformenlexikon aufgebaut. (z.B. die höchste Wahrscheinlichkeit für run ist Verb)
  2. Präfix- und Suffixwahrscheinlichkeiten werden aus dem getaggten Korpus automatisch ermittelt. (z.B. ein Wort auf -ous ist wahrscheinlich Adjektiv)
  3. Der Algorithmus wendet seine gelernten POS-Wahrscheinlichkeiten an und vergleicht seine Tagging-Ergebnisse mit den im getaggten Corpus vorgegebenen und leitet Änderungsregeln zu vorgegebenen Regelmustern ab:

    Change tag `a' to tag `b' when:

    1. The preceding (following) word is tagged `z'.
    2. The word two before (after) is tagged `z'.
    3. One of the two preceding (following) words is tagged `z'.
    4. One of the three preceding (following) words is tagged `z'.
    5. The preceding word is tagged `u' and the following word is tagged `z'.
    6. The preceding (following) word is tagged `u' and the word two before (after) is tagged `z'.

    7. The preceding (following) word is `w'.
    8. The word two before (after) is `w'.
    9. One of the two preceding (following) words is `w'.
    10. The current word is `v' and the preceding (following) word is `w'.
    11. The current word is `w' and the preceding (following) word is tagged `z'.

    Für jede Regelvariante <tag_a, tag_b, Variantennummer> wird berechnet, wie oft sie richtige und wie oft sie falsche Ergebnisse liefert. Die Differenz ergibt die Verbesserungssumme. Die Regelvariante mit der besten Verbesserungssumme wird angewendet.

Bsp.: Der Tagger markiert ursprünglich 159 Wörter als Verben, die Nomen sein sollten. Mit der Regel "Ändere Tag von Verb zu Nomen, falls eines der zwei vorhergehenden Wörter als Determiner getaggt ist." werden 98 Fälle (von den 159) korrigiert, aber es werden 18 andere Fehler erzeugt. Die Verbesserungssumme ist also (98-18=) 80.

Bsp. für zwei vom englischen System ermittelte Regeln:

 1. 	TO IN Next-tag AT

Ein mit TO (to-Infinitiv) getaggtes Wort wird mit IN (Präposition) getaggt, falls das nächste Wort mit AT (Artikel) getaggt ist.

 2.	VBN VBD Prev-Word-is-cap Yes

Ein mit VBN (Past Part. Verb) getaggtes Wort wird mit VBD (Past Verb) getaggt, falls das vorhergehende Wort mit Grossbuchstaben beginnt (d.h. ein Eigenname ist).

Anwendung des Taggers

  1. Jedem Wort wird das nach dem Lexikon wahrscheinlichste Tag zugewiesen.
  2. Unbekannte Wörter, die mit einem Grossbuchstaben beginnen, werden als Namen angesehen.
  3. Unbekannte Wörter, die mit einem Kleinbuchstaben beginnen, werden aufgrund ihrer Endung klassifiziert (z.B. blablaous als Adj).
  4. Alle gelernten Regeln werden angewendet.

Der Algorithmus für die englische Version hat eine Fehlerquote von 7,9%, wenn nur die Schritte 1-3 angewendet werden. Wenn auch die 71 automatisch ermittelten Regeln eingesetzt werden, verbessert sich das System von 7,9% auf 5,1% Fehlerrate.

==> Brills These: Regelbasiertes Tagging ist genauso gut wie probabilistisches Tagging. Mit Hilfe eines Lexikons kann es noch verbessert werden.


Ein Vergleich von statistischem und regelbasiertem Tagging für das Deutsche

von Martin Volk und Gerold Schneider

Untersuchte Tagger:

  1. Statistischer Tagger: TreeTagger von der Universität Stuttgart (entwickelt von Helmut Schmid)
  2. Regelbasierter Tagger: Brill-Tagger

Korpus

rund 70'000 Wörter aus der Frankfurter Rundschau (manuell getaggt)

Tagset

STTS (Stuttgart-Tübingen Tagset) mit 54 Tags einschl. 3 Tags für Satzzeichen

Training

Tagging des Testkorpus mit dem TreeTagger

ambiguity tokens in % correct in % lexical
errors
in % disambig.
errors
in %
0 1342 15.10 1128 84.05 214 15.95 0 0.00
1 5401 60.77 5330 98.69 71 1.31 0 0.00
2 993 11.17 929 93.55 3 0.30 61 6.14
3 795 8.95 757 95.22 0 0.00 38 4.78
4 260 2.93 240 92.31 0 0.00 20 7.69
5 96 1.08 83 86.46 0 0.00 13 13.54
total 8887 100.00 8467 95.27 288 3.24 132 1.49
Fehlertypen

Tagging des Testkorpus mit dem Brill-Tagger

ambiguity tokens in % correct in % lexical
errors
in % disambig.
errors
in %
0 1342 15.10 1094 81.52 248 18.48 0 0.00
1 5401 60.77 5330 98.69 71 1.31 0 0.00
2 993 11.17 906 91.24 3 0.30 84 8.46
3 795 8.95 758 95.35 0 0.00 37 4.65
4 260 2.93 245 94.23 0 0.00 15 5.77
5 96 1.08 87 90.62 0 0.00 9 9.38
total 8887 100.00 8420 94.75 322 3.62 145 1.63
Vergleich der Ergebnisse
Die häufigsten Fehlertypen
TreeTagger Fehler Brill-Tagger Fehler
Anzahl korrektes Tag Tagger-Tag Anzahl korrektes Tag Tagger-Tag
48 NE NN 54 NE NN
21 VVINF VVFIN 31 NN NE
20 NN NE 19 VVFIN VVINF
17 VVFIN VVINF 19 VVFIN ADJA
10 VVPP VVFIN 17 VVINF VVFIN
10 VVFIN VVPP 15 VVPP VVFIN
8 CARDNUM VMPP 11 VVPP ADJD
7 ADJD VVFIN 11 ADJD VVFIN
7 ADJD ADV 8 VVINF ADJA

Tagging des Testkorpus mit einer Kombination von Gertwol und Tagger

Um das Problem der Erkennung unbekannter Wörter einzudämmen, kann man ein `externes' Lexikon zuschalten. Z.B. kann man alle unbekannten Wörter zunächst von Gertwol analysieren lassen, die Gertwol-Ausgabe auf die möglichen Tags abbilden und dann dem Tagger-Lexikon hinzufügen. Dadurch kann man die Tagger-Genauigkeit weiter verbessern. Die besten Ergebnisse erzielten wir mit der Kombination von Gertwol und dem TreeTagger.
ambiguity tokens in % correct in % lexical
errors
in % disambig.
errors
in %
0 109 1.23 72 66.06 37 33.94 0 0.00
1 6307 70.97 6209 98.45 98 1.55 0 0.00
2 1224 13.77 1119 91.42 10 0.82 95 7.76
3 852 9.59 805 94.48 2 0.23 45 5.28
4 296 3.33 266 89.86 0 0.00 30 10.14
5 99 1.11 86 86.87 0 0.00 13 13.13
total 8887 100.00 8557 96.29 147 1.65 183 2.06


Ein Vergleich von statistischem und regelbasiertem Tagging für das Französische

Lit.: [Chanod und Tapanainen 95]: "Tagging French - comparing a statistical and a constraint-based method"; Online-Version (Postscript 130 KByte).

Die untersuchte statistische Methode entspricht der von Cutting et al. entwickelten und führte auch für Französisch zu 96,8% korrektem Tagging.

Das Ändern der `Parser-Tendenz' (engl. bias) ist manchmal sehr kompliziert. Die Sequenz

Det   N   N/V   Präp  (Wie in Le train part à cinq heures.)

wird oft falsch disambiguiert. Der Tagger bevorzugt die N-Lesart für das Verb. Zwei Tendenzen wurden hinzugefügt:

 Auf ein Singular-Nomen folgt meist kein Nomen.
 Auf ein Singular-Nomen folgt oft ein Singular-3.Pers.-Verb.

Danach wurde der obige Satz richtig disambiguiert, aber die Fehlerrate insgesamt stieg um 50%.

Die constraint-basierte Methode (nach Chanod, Tapanainen)

Motivation:

  1. In einem Zeitungscorpus mit 1 Mio laufenden Wörtern machen die 16 häufigsten ambigen Wortformen 50% aller Ambiguitäten aus. (Zwei Drittel aller Ambiguitäten gehen auf die 97 häufigsten Wortformen zurück.)
  2. Die häufigsten ambigen Wortformen sind corpus-unabhängig.

Methode:

  1. Für die häufigsten ambigen Wortformen werden Regeln aufgestellt, die kontextuelle Bedingungen angeben. (Dadurch wird z.B. die Mehrdeutigkeit zwischen Clitic und Determiner für le oder la geklärt.)

    Je le veux.                   (Ich will es.)
    Je travaille dans le jardin.  (Ich arbeite im Garten.)
    

    Einige dieser häufigsten ambigen Wortformen haben sehr seltene Lesarten: Die Hilfsverben a und est können auch Nomen sein. Für diese Fälle wird genau festgelegt, wie der Kontext aussehen muss, damit diese Wortformen die seltene Lesart haben können. In allen anderen Fällen wird die wahrscheinlichere Lesart angenommen.

  2. Für schwierigere Fälle werden kontextuelle Heuristiken aufgestellt.

    Bsp. Unterscheidung zwischen des als Determiner bzw. kontrahierter Präposition-Determiner

    Jean mange des pommes.
    Jean aime le bruit des vagues.

    Eindeutige Regelung nur über Verbsubkategorisierung möglich. Hier Heuristiken:

  3. Für weitere Probleme werden nicht-kontextuelle Heuristiken aufgestellt. Sie entsprechen lexikalischen Wahrscheinlichkeiten. (Die Autoren raten, welche Lesart wahrscheinlicher ist.) Bsp.:

    Präposition vor Adjektiv
    Pronomen vor Partizip Perfekt

    Werden nur auf die Fälle angewendet, die durch die vorherigen Schritte nicht disambiguiert werden konnten.

System:

Regeln und Heuristiken sind als Transducer implementiert.

39 Regeln
25 kontextuelle Heuristiken
11 nicht-kontextuelle Heuristiken

Leistung:

Test A: Corpus mit 255 Sätzen (5752 Wörter)

=> 54% Wörter sind mehrdeutig. Nach Anwendung aller Regeln: 1,3% Fehlerrate (s. Tabelle 1)

Test B: Zeitungscorpus mit 12.000 Wörtern (mit Schreibfehlern und vielen Eigennamen)

Nach Anwendung aller Regeln: 2,5% Fehlerrate (s. Tabelle 2)

Kombination von statistischem und constraint-basiertem Tagging

Versuchsanordnung:

  1. Einsatz des constraint-basierten Taggers ohne die nicht-kontextuellen Heuristiken (Aus Zeitungskorpus mit 12.000 Wörtern bleiben 1400 mehrdeutig.)
  2. Einsatz des statistischen Taggers unabhängig vom vorherigen Lauf des constraint-basierten Taggers. Für die Fälle, wo der constraint-basierte Tagger keine Eindeutigkeit herstellt, wird das vom statistischen Tagger ermittelte Tag genommen. (Erzeugt 220 Fehler auf die 1400 Mehrdeutigkeiten.)
  3. Die verbleibenden Mehrdeutigkeiten (0,5%) werden durch die nicht-kontextuellen Heuristiken behandelt. (Erzeugt nur 150 Fehler auf die 1400 Mehrdeutigkeiten.)

Fehleranalyse

  1. Fehler durch Mehr-Wort-Ausdrücke (15 Fehler).

    Lösung: Lexikalisierung der Ausdrücke

  2. korrigierbare Fehler (41 Fehler)

    Lösung: Korrektur und Ergänzung der Regeln (das vorliegende Ergebnis wurde unter Zeitbegrenzung erzielt.)

    Bsp.: "Prep + Clitic + Fin-Verb" war nicht verboten und wurde anwendet auf

    a l'est

  3. problematische (schwer zu korrigierende) Fehler (28 Fehler)


Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch