[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ]
Definition 8.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode.
Definition 8.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität.
Definition 8.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird.
Definition 8.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind.
Überlegungen zu Reliabilität und Validität
Messintention
Es soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden.
Überlegung I
Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und Validität hoch ist?
Überlegung II
Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person mehrmals gemacht wird?
Systemverbesserung
Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden ist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die Komponente Z das System optimiert.
Systemvergleich
Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist.
POS-Tagger-Evaluation: Genauigkeit
Definition 8.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Token ist der Anteil der korrekt getaggten Token.
Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Token:
Beispiel 8.2.6 (Genauigkeitsberechnung von TnT-Tagger).
Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%.
Wieviele Tags im Testkorpus von 100’000 sind falsch?
Wenn man nur mit 1’000 Tokens trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus von 100’000 Tokens. Wie hoch ist die Genauigkeit?
Häufigste Tagging-Fehler von TnT im NEGRA-Korpus
Legende zur Tabelle ???
Tagt: Korrektes Label; Tagf: Falsch getaggtes Label
Freqt: Vorkommenshäufigkeit des korrekten Labels; Freqf: Vorkommenshäufigkeit des falschen
Labels
Erel.: Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler
Ant.: Anteil der falschen Tags an den korrekt erkannten
Tagt | Freqt | Tagf | Freqf | Ant. | Erel. | Eabs. |
NE | 15069 | NN | 2092 | 13.9 | 19.6 | 0.74 |
VVFIN | 11595 | VVINF | 667 | 5.8 | 6.3 | 0.23 |
NN | 58563 | NE | 615 | 1.1 | 5.8 | 0.22 |
VVFIN | 11595 | VVPP | 425 | 3.7 | 4.0 | 0.15 |
ADJA | 16843 | NN | 270 | 1.6 | 2.5 | 0.10 |
Genauigkeit unter 10-facher Kreuzvalidierung
Definition 8.2.7 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutralisiert“.
Generalisierung von 10 auf k
Die Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 das Mittel noch genauer.
Recall (Ausbeute, Abdeckung, Vollständigkeit)
Definition 8.2.9. Recall
gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen
korrekten Antworten an.
Formal: Sei Nt die Anzahl aller möglichen korrekten Antworten und At die Anzahl der korrekten
Antworten des Systems.
Beispiel 8.2.10 (Recall eines Taggers).
Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassifiziert.
At = 600 und Nt = 800. Der Recall berechnet sich als: R = = 75%
Precision (Genauigkeit, Präzision)
Definition 8.2.11. Precision
gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen gegebenen
Antworten des Systems an.
Formal: Sei A die Anzahl aller Antworten und At die Anzahl der korrekten Antworten des
Systems.
Beispiel 8.2.12 (Precision eines Taggers).
Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon waren
tatsächlich VVFIN.
At = 600 und A = 1000. Die Precision berechnet sich als: P = = 60%
Definition 8.2.13 (F1-Measure). Das F-Measure
ist ein Evaluationsmass, das Precision und Recall eines Systems gleichgewichtet (zum harmonischen
Mittelwert) verrechnet.
Formal: Sei P die Precision und R der Recall eines Systems:
Beispiel 8.2.14 (F-Mass eines Taggers).
Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.
Das F-Measure berechnet sich somit: F = = 66.6%
[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ]