[ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]
Idee
Automatische Evaluation misst die Qualität einer maschinellen Übersetzung, indem sie mit einer oder besser mehreren menschlichen Referenz-Übersetzungen verglichen wird.
Vorteile
Menschliche Evaluation ist aufwändig und langsam , automatische Berechnung einer metrischen Güte ist billig und schnell.
Definition 10.6.1 (Bilingual Evaluation Understudy (BLEU)). Eine der aktuell wichtigsten Metriken zur automatischen bilingualen Evaluation ist der BLEU-Score .
Definition 10.6.2 (Unigramm-Präzision P1). Die Unigramm-Präzision (Token-Präzision) eines Übersetzungskandidaten misst, wie hoch der Anteil der Wörter aus allen Referenzübersetzungen an allen Tokenvorkommen eines Kandidaten ist:
N = Anzahl Token des Kandidaten; C = Anzahl Token des Kandidaten, welche in einer Referenzübersetzung erscheinen
Frage
Wie hoch sind P1 von MT1 und MT2?
Tokenvorkommen
Problem der Wiederholung
Wie hoch ist die P1 des “idiotischen” Kandidaten?
Clipping der Kandidatenvorkommen
Ein Token darf maximal sooft gezählt werden, wie es in einer einzelnen Referenzübersetzung vorkommt. Wie hoch ist P1 des Kandidaten mit Clipping?
Uni-, Bi-, Tri- und Quadrigramme
Längere Textabschnitte im Vergleich
Welche N-Gramme aus den Referenztexten finden sich im MT-Kandidaten?
Geometrisches Mittel der N-Gramm-Präzisionen
Die Precisionwerte der 1-4-Gramme eines Kandidaten werden geometrisch gemittelt :
Problem der Kürze
Wie hoch ist die P1 des Kandidaten?
Recall-Mass kompensieren
Normalerweise würde ein Präzisionsmass mit Recall verrechnet, um solche Effekte zu mindern. Wir haben aber mehrere Referenzübersetzungen. Als Ausweg wird ungewöhnliche Kürze des Kandidaten bestraft.
Strafabzug für Kürze über Korpus
Beispiel 10.6.3 (Realistischer Faktor).
Wenn Kandidatenübersetzung 1000 Token zählt (c = 1000) und Referenzlänge als 1100 Token zählt
(l = 1100), dann BP = e1−1.1 = e−0.1 = 0.905
BLEU als Formel
BLEU-Score ergibt sich aus Multiplikation von Brevity Penalty mit der geometrisch gemittelten
Präzision aus 1-4-Grammen.
Eigenschaften
BLEU betont enge lokale Übereinstimmung und vernachlässigt Unstimmigkeiten, welche sich darüber hinaus ergeben können:“Ensures that the military it is a guide to action which always obeys the commands of the party.” wäre gleich gut wie Kandidat 1.
Wie zuverlässig bildet BLEU das menschliches Urteil ab?
[ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]