10.2
 MT-Terminologie

10.2.1
 MT

Grundbegriffe 

Maschinelle Übersetzung, Machine Translation (MT)

Vollautomatische Übersetzung eines natürlichsprachlichen Textes in eine andere natürliche Sprache.

Maschinelles Dolmetschen, Machine Interpretation

Vollautomatische Übersetzung gesprochener Sprache in eine andere natürliche Sprache (auch Speech-To-Speech Translation).

Quellsprache (QS), source language (SL)

Die Sprache, die man übersetzen will.

Zielsprache (ZS), target language (TL)

Die Sprache, in die man übersetzen will.

Übersetzungsrichtungen

Die Anzahl der Übersetzungsrichtungen für n Sprachen ist n × (n 1).

Beispiel EU 

20 offizielle Sprachen der EU bis Ende 2006

Englisch, Deutsch, Französisch, Italienisch, Spanisch, Portugiesisch, Griechisch, Holländisch, Dänisch, Schwedisch, Finnisch, Tschechisch, Estnisch, Litauisch, Lettisch, Ungarisch, Maltesisch, Polnisch, Slowenisch, Slowakisch

3 neue offizielle Sprachen der EU ab 2007

Irisch, Rumänisch, Bulgarisch

Beispiel 10.2.1 (Übersetzungsrichtungen in der EU).
Für die 20 Sprachen der EU bis 2006 gab es 20 × 19 = 380 Übersetzungsrichtungen. Wieviel mehr sind es mit den 23 Sprachen?

Sprachendienst der EU

Die EU verwendet und entwickelt seit Jahrzehnten ein eigenes MÜ-System (“Euro Systran”). 1998 wurden 370’000 Seiten übersetzt und ca. 35% Übersetzungszeit eingespart.

10.2.2
 CAT

Computerunterstützte Übersetzung 

Definition 10.2.2 (computer aided (assisted, based) translation (CAT)). Computerunterstützte Übersetzung kombiniert menschliche und maschinelle Übersetzungsleistung.


pict

Abbildung 10.1: Automatisierungsgrade nach [Hutchins und Somers 1992]

10.2.3
 MAHT

Computergestützte Humanübersetzung (MAHT) 

Definition 10.2.3 (CAT-Software). In der computergestützten Humanübersetzung wird Software eingesetzt, welche den Übersetzungsprozess optimiert:

Vorgehen bei TM-basierter Übersetzung 

100%-Matches garantieren keine fehlerfreie Übersetzung!


pict

Abbildung 10.2: Beispiel: Dokumenten-Editor mit Zugriff auf TM


Beispiel: Partieller Match (Fuzzy Match) 


pict

Abbildung 10.3: Beispiel: Fuzzy-Match mit 81% Übereinstimmung

Die Übereinstimmungsquote für einen Übersetzungsvorschlag lässt sich einsehen oder einstellen.

Beispiel 10.2.4 (Partieller Match).
Der aktuell vorliegende Text, sowie das im TM abgelegte Übersetzungspaar wird angezeigt. Nicht übereinstimmendes Material in der QS ist gelb, Vertauschung ist blau markiert.


pict

Abbildung 10.4: Beispiel: Dokumenten-Editor mit Zugriff auf TM


Erstellung von Translation-Memories 

Ansätze automatischer Satz-Alignierung

Exkurs: Satzlängenbasierte Alignierung 

Ansatz von [Gale und Church 1993]

  1. Zuordnung von Absätzen auf Grund ihrer Länge (oder Formatierung)
  2. Zuordnung von Sätzen innerhalb von Absätzen aufgrund minimaler Längenabweichung der entstehenden Paare

Zuordnungsverhältnisse

In der Praxis lassen sich die Übersetzungen auf Satzebene fast immer vollständig mit 0:1-, 1:1-, 1:2- und 2:2-Verknüpfungen zuordnen.


Zuordnung Häufigk. Fehler



1:1 89% 2%
1:2 9% 9%
0:1 1% 100%
2:2 1% 33%


Tabelle 10.1: Häufigkeit im Test-Korpus von Gale und Church

Exkurs: Wortbasierte Satzalignierung  

Iterativer Algorithmus zur satzweisen Alignierung nach [Kay und Roscheisen 1993]

Alternative zur Verankerung

Verwende nummerische Ausdrücke, Eigennamen, Formatierungen zur Bestimmung der besten Ankerkandidaten.

Parametrisierung der Alignierung bei Trados WinAlign 


pict

Abbildung 10.5: Parametrisierung der Alignierung bei SDL Trados WinAlign

Alignment über Dokumentstruktur 


pict

Abbildung 10.6: Fehlerhafte Roh-Alignierung in SDL Trados 22007 WinAlign


pict

Abbildung 10.7: Export der Alignierung als TM


Terminologiekomponente 


pict

Abbildung 10.8: Terminologie-Verwaltung mit Termbase



pict

Abbildung 10.9: “Rohübersetzung” von erkannter Terminologie


Fazit zu MAHT 

10.2.4
 HAMT

Human-Aided Machine Translation (HAMT) 

Definition 10.2.5. HAMT bezeichnet Übersetzungsszenarios, bei denen einen maschinelle Übersetzung durch gezielte manuelle

ergänzt wird.

Die Operationen der Prä- oder Postedition können auch interaktiv geschehen.

10.2.5
 FAHQT

Fully automatic high quality translation (FAHQT) 

Menschliche Übersetzungsqualität durch vollautomatische MÜ

Weiterhin utopisch, auch wenn sich immer wieder Leute finden lassen, welche Gegenteiliges für die nahe Zukunft prognostizieren!

Aber

Frage

Welche Textsorten eignen sich für automatische Übersetzung? Nach Schwierigkeitsgrad geordnet (*=ohne manuelle Bearbeitung;**=mit Vor-/Nachredaktion; ***=zur Zeit unmöglich):

  1. Wetterberichte, Börsenberichte, weitere extrem eingeschränkte Subsprachen*
  2. Technische Dokumente, Handbücher **
  3. Rechtsdokumente**
  4. Wissenschaftliche Texte**
  5. Journalistische Texte***
  6. Literarische Texte, Werbetexte, Filmtexte***

Der Einsatz von Übersetzungsgedächtnissen und ausgebauter Terminologie hat allerdings einen grossen Einfluss auf die Qualität der Resultate bei Texten der Kategorien ** und ***.

Wetterberichtstexte 

Beispiel 10.2.6 (Englische und französische Wetterberichte aus Kanada).
Tonight..Cloudy. 60 percent chance of showers early this evening. Periods of rain beginning this evening. Becoming windy near midnight. Low 7. Ce soir et cette nuit..Nuageux. 60 pour cent de probabilité d’averses tôt ce soir. Pluie intermittente débutant ce soir. Devenant venteux vers minuit. Minimum 7.

Das berühmte FAHQ-Übersetzungssystem METEO

Von 1978-2001 war das Übersetzungssystem METEO (in verschiedenen Versionen) in Kanada für MÜ von Englisch nach Französisch im Dienst. 1991 wurde ca. 45’000 Wörter pro Tag damit übersetzt.[Chandioux 1991]