11.3. Statistische Maschinelle Übersetzung
Lernende Verfahren
Regelbasiert vs. datenbasiert
Anstelle von komplexen Regelsystemen wird aus alignierten Satzpaaren die Übersetzungsrelation
gelernt.
Noisy Channel Model für EN → FR
Die Übersetzung versucht, aus einem “verrauschten” Signal, das wie Englisch tönt, das wahrscheinlichste
französische Original zu rekonstruieren.
Fluency und Faithfulness im SMT
Optimieren von Fluency und Faithfulness in wortbasierter MT
- Faithfulness
: Wie wahrscheinlich kann von einer französischen Wortfolge auf eine englische Wortfolge
übersetzt werden? Übersetzungsmodell: P(f | e)
- Fluency
: Wie englisch ist das Übersetzte? ZS-Modell: P(e)
Candide Modell 3 für Übersetzungsrichtung FR → EN
Nach [AL-ONAIZAN et al. 1999, 13]
- Probabilistisches Lexikon
: Mit welchen Wahrscheinlichkeiten wird ein englisches Wort aus französischen Wörtern
übersetzt?
- Fruchtbarkeit
(fertility): Wahrscheinlichkeit, dass ein französisches Wort in n englische Wörter übersetzt
wird.
- Verzerrung
(Distortion): Wahrscheinlichkeit, dass ein englisches Token an Position i in einem Satz an
Position j im französischen Satz erscheint.
- Null-Einsetzung
(NULL-insertion): Globale Wahrscheinlichkeit, dass irgendwo ein NULL Element im Englischen
erscheint.
Statistische Verfahren
- Seit Mitte 90-Jahre sehr aktives Forschungsgebiet. Aber: Keine wirklichen Durchbrüche im
Vergleich mit den regelbasierten Ansätzen.
- Wortbasierte Ansätze wurden von phrasen-basierten (Chunks) Ansätzen abgelöst.
- Im Prinzip kann jedes Problem im klassischen Übersetzungsparadigma durch
probabilistische Verfahren gelöst werden (“Wortsinndesambiguierung”, Syntax-Analyse,
Strukturveränderungen)