6.5.  Exkurs: Evaluation binärer Klassifikatoren

Lernziele 

6.5.1.  True/False Positives/Negatives

Evaluation von binären Klassifikatoren 


Truth
Positive Negative




Test Positive
True Positive (TP)
False Positive (FP)
Negative
False Negative (FN)
True Negative (TN)





Tabelle 6.3: Schema zum Abgleich von Test-Klassifikator und Wahrheit

Legende zur Tabelle ???

True
Übereinstimmung zwischen “Test” und “Truth”
False
Keine Übereinstimmung zwischen “Test” und “Truth”
FP
Fehlertyp I : Test ist positiv, wo er nicht sollte.
FN
Fehlertyp II : Test ist negativ, wo er nicht sollte.

6.5.2.  Fehlerparadoxe

Problem der Fehlerabschätzung I 

Beispiel 6.5.1 (FP: Fehlertyp I). Ein syntaktischer Test zur Identifizierung einer seltenen Konstruktion, welche nur in 1 von 100’001 Sätzen auftaucht, findet zwar alle vorhandenen Konstruktionen, liefert aber leider 1% Falsch-Positive. D.h die Korrektheit (accuracy) ist 99%.

Wie wahrscheinlich ist es, dass der Test tatsächlich eine gesuchte Konstruktion gefunden hat, wenn er ein positives Resultat vermeldet?

Man überlege:

Wie oft wird ein positives Testresultat bei 100’001 Sätzen gemeldet? Wieviele TP sind im Schnitt darunter?

Problem der Fehlerabschätzung II 

Beispiel 6.5.2 (FN: Fehlertyp II). Ein syntaktischer Test zur Identifizierung einer häufigen Konstruktion, welche in 80’000 von 100’000 Sätzen auftaucht, findet 12.5% der Fälle nicht.

Wie wahrscheinlich ist es, dass ein Satz die Konstruktion trotzdem enthält, obwohl der Test ein negatives Resultat vermeldet?

Man überlege:

Wie oft wird ein negatives Testresultat bei 100’000 Sätzen gemeldet? Wieviele FN sind im Schnitt darunter?

6.5.3.  Unterschiede von Evaluationsmassen

Dualität von Precision und Recall 


Truth
Pos Neg




Test Pos
TP
FP
Neg
FN
TN




     ---TP-----
R =  TP + F N


Tabelle 6.4: Recall

Recall ignoriert FP . Je weniger falsche Negative, desto höher der Recall.


Truth
Pos Neg




Test Pos
TP
FP
Neg
FN
TN




     ---TP----
P =  TP + F P


Tabelle 6.5: Precision

Precision ignoriert FN . Je weniger falsche Positive, desto höher die Precision.

F-Measure vs. Accuracy 


Truth
Pos Neg




Test Pos
TP
FP
Neg
FN
TN




     ------2×-T-P-------
F =  2× T P + F P + F N


Tabelle 6.6: F1-Measure

F-Measure ignoriert TN . TP interessieren eigentlich.


Truth
Pos Neg




Test Pos
TP
FP
Neg
FN
TN




           ------T-P-+-TN-------
Accuracy = T P + TN  + FP  + FN


Tabelle 6.7: Accuracy

Accuracy ignoriert nichts . TP und TN interessieren gleichwertig.

6.5.4.  Mitteln von Recall und Precision

F-Measure: Harmonisches vs. arithmetisches Mittel 


pict

Abbildung 6.7: F = 2×P×R-
 P+R: y/x-Achse: Recall F-Mass [F-MASS 2006]


pict

pict

Abbildung 6.8: M = P+R-
 2: Arithmetisches Mittel


6.5.5.  Vertiefung