Evaluation

Deﬁnition 6.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode.

Deﬁnition 6.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität.

Deﬁnition 6.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was eﬀektiv gemessen wird.

Deﬁnition 6.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind.

Es soll das Verständnis von Studierenden über das Thema reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden.

Wie müssen die Fragen des Multiple-Choice-Tests beschaﬀen sein, damit die Reliabilität und Validität hoch ist?

Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person mehrmals gemacht wird?

6.2.1. Zweck

Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modiﬁziert worden ist. Die Evaluation von System A und A’ hilft einzuschätzen, inwiefern die Komponente Z das System optimiert.

Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist.

6.2.2. Accuracy

Deﬁnition 6.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Token ist der Anteil der korrekt getaggten Token.

Formal: Sei E die Anzahl von falsch getaggten (Vorkommen von) Token:

N − E accuracy = ------- N

Beispiel 6.2.6 (Genauigkeitsberechnung).
Die Korrektheit des TnT-Taggers bei einem Training über 1 Million Token der Penn Treebank beträgt 96.7%. Wieviele Token wurden im Testkorpus von 100’000 Token falsch getaggt?

Wenn man nur über 1’000 Token trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus von 100’000 Token. Wie hoch ist die Genauigkeit?

Beispiel 6.2.7 (Verbesserung von Tagging-Resultaten).
Hans ist nicht zufrieden mit den 96.7% Genauigkeit des TnT-Taggers über der Penn Treebank. Er schreibt ein Pattern-Matching-Programm, das nach dem Tagging angewendet wird und das möglichst viele Fehler des Taggers noch korrigiert. Nach 2 Jahren hat er damit für die Penn Treebank eine Genauigkeit von 99.8% erreicht.

Was ist von der Aussage von Paul zu halten, dass er einen POS-Tagger für Englisch gemacht hat, der eine evaluierte Genauigkeit von 99.8% hat?

Tag_t: Korrektes Label; Tag_f: Falsch getaggtes Label
Freq_t: Vorkommenshäuﬁgkeit des korrekten Labels; Freq_f: Vorkommenshäuﬁgkeit des falschen Labels
E_rel.: Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler
Ant.: Anteil der falschen Tags an den korrekt erkannten

Tag_t	Freq_t	Tag_f	Freq_f	Ant.	E_rel.	E_abs.
NE	15069	NN	2092	13.9	19.6	0.74
VVFIN	11595	VVINF	667	5.8	6.3	0.23
NN	58563	NE	615	1.1	5.8	0.22
VVFIN	11595	VVPP	425	3.7	4.0	0.15
ADJA	16843	NN	270	1.6	2.5	0.10

Tabelle 6.2:

Übersicht: NEGRA-Konfusionsmatrix [BRANTS 1999, 112]

Deﬁnition 6.2.8 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial.

Beispiel 6.2.9 (Durchschnittliche Genauigkeit).

∑i=10 accuracy-= --i=1-accuracyi 10

Die Verwendung von 10 hat sich als gute und bewährte Praxis erwiesen. Im Prinzip kann man aber 10 durch irgendeine Zahl k ≥ 1 ersetzen.

6.2.3. Lernkurven

pict

Abbildung 6.3:

Tnt-Evaluation an Penn Treebank durch Thorsten Brants

pict

Abbildung 6.4:

Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

6.2.4. Recall

Deﬁnition 6.2.10. Recall ist ein Evaluationsmass, das den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten angibt.
Formal: Sei N_t die Anzahl aller möglichen korrekten Antworten und A_t die Anzahl der korrekten Antworten des Systems.

R = At- Nt

Beispiel 6.2.11 (Recall eines Taggers).
Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassiﬁziert.
A_t = 600 und N_t = 800. Der Recall berechnet sich als: R = 600
800 = 75%

6.2.5. Precision

Deﬁnition 6.2.12. Precision ist ein Evaluationsmass, das den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems angibt.
Formal: Sei A die Anzahl aller Antworten und A_t die Anzahl der korrekten Antworten des Systems.

P = At- A

Beispiel 6.2.13 (Precision eines Taggers).
Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassiﬁziert, aber nur 600 davon waren tatsächlich VVFIN.
A_t = 600 und A = 1000. Die Precision berechnet sich als: P = 600-
1000 = 60%

6.2.6. F-Measure

Deﬁnition 6.2.14 (F₁-Measure). Das F-Measure ist ein Evaluationsmass, das Precision und Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.
Formal: Sei P die Precision und R der Recall eines Systems:

2 × P × R F = ---------- P + R

Beispiel 6.2.15 (F-Mass eines Taggers).
Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.
Das F-Measure berechnet sich somit: F = 2×00.6.6+×00..7755 = 66.6%