Evaluation

Definition 8.2.1. Die Evaluation eines Resultats oder eines Verfahrens ist die Zuordnung eines Wertes auf einer Werteskala aufgrund einer Messmethode.

Definition 8.2.2 (Qualität einer Evaluation). Die Qualität einer Messmethode basiert auf ihrer Validität und Reliabilität.

Definition 8.2.3 (Validität, Gültigkeit, Angemessenheit). Die Validität einer Messmethode sagt aus, ob das, was gemessen werden soll (Messintention) auch das ist, was effektiv gemessen wird.

Definition 8.2.4 (Reliabilität, Zuverlässigkeit, Genauigkeit). Die Reliabilität einer Messmethode sagt aus, wie genau und reproduzierbar die Messresultate sind.

Es soll das Verständnis von Studierenden für reguläre Ausdrücke mittels eines Multiple-Choice-Tests geprüft werden.

Wie müssen die Fragen des Multiple-Choice-Tests beschaffen sein, damit die Reliabilität und Validität hoch ist?

Was passiert bezüglich der Qualität der Evaluation, wenn derselbe Test von der gleichen Person mehrmals gemacht wird?

8.2.1
Zweck

Von System A wird eine neue Version A’ erstellt, wobei eine Komponente Z modifiziert worden ist. Die Evaluation von System A gegenüber A’ hilft einzuschätzen, inwiefern die Komponente Z das System optimiert.

Um ein Problem P zu lösen, steht ein System A und ein System B zur Verfügung. Die Evaluation anhand einer Testaufgabe T zeigt auf, welches System besser ist.

8.2.2
Accuracy

Definition 8.2.5 (Genauigkeit, engl. accuracy). Die Tagging-Genauigkeit über einem Text mit N Token ist der Anteil der korrekt getaggten Token.

Formal: Sei E die Anzahl von falsch getaggten Vorkommen von Token:

N----E- accuracy = N

Beispiel 8.2.6 (Genauigkeitsberechnung von TnT-Tagger).
Mit einem Trainingskorpus von 1 Million Tokens der Penn-Treebank ist die Korrektheit 96.7%. Wieviele Tags im Testkorpus von 100’000 sind falsch?

Wenn man nur mit 1’000 Tokens trainiert, sind im Schnitt etwa 31’400 Fehler im Testkorpus von 100’000 Tokens. Wie hoch ist die Genauigkeit?

Tag_t: Korrektes Label; Tag_f: Falsch getaggtes Label
Freq_t: Vorkommenshäufigkeit des korrekten Labels; Freq_f: Vorkommenshäufigkeit des falschen Labels
E_rel.: Relative Fehlerquote, d.h. Anteil dieses Fehlers am Gesamtfehler
Ant.: Anteil der falschen Tags an den korrekt erkannten

Tag_t	Freq_t	Tag_f	Freq_f	Ant.	E_rel.	E_abs.
NE	15069	NN	2092	13.9	19.6	0.74
VVFIN	11595	VVINF	667	5.8	6.3	0.23
NN	58563	NE	615	1.1	5.8	0.22
VVFIN	11595	VVPP	425	3.7	4.0	0.15
ADJA	16843	NN	270	1.6	2.5	0.10

Tabelle 8.2:

Übersicht: NEGRA-Konfusionsmatrix [Brants 1999, 112]

Definition 8.2.7 (10-fache Kreuzvalidierung, engl. ten-fold cross-validation). Bei der 10-fache Kreuzvalidierung werden die vorhandenen Daten in 10 Teile aufgeteilt. In 10 Testläufen wird jeweils 1/10 der Daten als Testmaterial verwendet und die restlichen 9/10 der Daten als Trainingsmaterial. Zufallsbedingte besonders gute oder schlechte Resultate werden damit „neutralisiert“.

Beispiel 8.2.8 (Durchschnittliche Genauigkeit (average accuracy)).

∑ --------- --ii==110accuracyi accuracy = 10

Die Verwendung von 10 hat sich als bewährte Praxis etabliert. Im Prinzip wäre mit k > 10 das Mittel noch genauer.

8.2.3
Lernkurven

pict

Abbildung 8.4:

Tnt-Evaluation an Penn Treebank durch Thorsten Brants

pict

Abbildung 8.5:

Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants

8.2.4
Recall

Definition 8.2.9. Recall gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen möglichen korrekten Antworten an.
Formal: Sei N_t die Anzahl aller möglichen korrekten Antworten und A_t die Anzahl der korrekten Antworten des Systems.

R = At- Nt

Beispiel 8.2.10 (Recall eines Taggers).
Ein Tagger hat von 800 vorhandenen VVFIN in einem Testkorpus 600 korrekt als VVFIN klassifiziert.
A_t = 600 und N_t = 800. Der Recall berechnet sich als: R = 600
800 = 75%

8.2.5
Precision

Definition 8.2.11. Precision gibt den Anteil der korrekten Antworten (Entscheidungen) eines Systems gemessen an allen gegebenen Antworten des Systems an.
Formal: Sei A die Anzahl aller Antworten und A_t die Anzahl der korrekten Antworten des Systems.

P = At- A

Beispiel 8.2.12 (Precision eines Taggers).
Ein Tagger hat in einem Testkorpus 1’000 Token als VVFIN klassifiziert, aber nur 600 davon waren tatsächlich VVFIN.
A_t = 600 und A = 1000. Die Precision berechnet sich als: P = 600-
1000 = 60%

8.2.6
F-Measure

Definition 8.2.13 (F₁-Measure). Das F-Measure ist ein Evaluationsmass, das Precision und Recall eines Systems gleichgewichtet (zum harmonischen Mittelwert) verrechnet.
Formal: Sei P die Precision und R der Recall eines Systems:

2 × P × R F = ---------- P + R

Beispiel 8.2.14 (F-Mass eines Taggers).
Ein Tagger hat in einem Testkorpus eine Präzision von 60% und ein Recall von 75% für VVFIN.
Das F-Measure berechnet sich somit: F = 2×00..6+6×00..7755 = 66.6%

8.2 Evaluation

8.2.1 Zweck

8.2.2 Accuracy

8.2.3 Lernkurven

8.2.4 Recall

8.2.5 Precision

8.2.6 F-Measure