10.4.  Linguistische Probleme der Übersetzung

Ideale Sprachen für MT 
Maschinelle Übersetzung von QS nach ZS wäre trivial, wenn folgende Bedingungen erfüllt wären:

10.4.1.  Mehrdeutigkeit

Mehrdeutigkeit der Wortart 

Beispiel 10.4.1 (Mehrdeutige Wortform: Englisch nach Französisch).

Diagnose

Dieselbe Wortform in der QS (“use”) steht für verschiedene Wortformen in der ZS (“emploi/N”, “employer/V”).

Minimaler Lösungsansatz

Bestimmen der Wortart in der QS, d.h. Tagging.

Mehrdeutigkeit von morphologischen Merkmalen 

Beispiel 10.4.2 (Mehrdeutige Wortform: Englisch nach Deutsch).

Diagnose

Dieselbe Wortform in der QS (“loved”) steht für verschiedene Wortformen in der ZS:
liebten /VVFIN:1.Pl .Past.Ind, liebte/VVFIN:3.Sg .Past.Ind.

Lösungsansatz

Um die korrekte finite Wortform im Deutschen zu wählen, muss man wissen:

Dieses Wissen kann eine syntaktische Analyse liefern.

Mehrdeutigkeit von morphologischen Merkmalen 

Beispiel 10.4.3 (Mehrdeutige Wortform: Englisch nach Deutsch).

Diagnose

Dieselbe Wortform in der QS (“it”) steht für verschiedene Wortformen in der ZS:
ihn /PPER:3.Sg.Masc .Akk, es /PPER:3.Sg.Neut .Akk.

Lösungsansatz

Eine syntaktische Analyse allein liefert noch keine Entscheidungsgrundlage.

Lexikalisches Sortenwissen und Desambiguierung 
Die korrekte Übersetzung von “it” ins Deutsche erfordert eine Bestimmung der Bezugsgrösse des Pronomens.

Beispiel 10.4.4 (Aus dem elektronischen Lexikon WordNet ▸▸▸).

Selektionsrestriktionen von Verben als Ausschlusskriterien

Das Akkusativobjekt von “to spill” bezeichnet eine Flüssigkeit. Das Objekt von “to break” kann keine Flüssigkeit sein, weil diese nicht in Stücke gebrochen werden können.

Lexikalisches Sortenwissen in der CL 
Woher weiss der Computer, dass “wine” eine Flüssigkeit bezeichnet?

Beispiel 10.4.5 (Begriffshierarchie für “wine” aus WordNet ▸▸▸).
(n) wine , vino (fermented juice (of grapes especially)) (n) alcohol, alcoholic beverage, intoxicant, inebriant (a liquor or brew containing alcohol as the active agent) (n) liquid (a substance that is liquid at room temperature and pressure) (n) fluid (a substance that is fluid at room temperature and pressure) (n) substance, matter (that which has mass and occupies space) (n) physical entity (an entity that has physical existence) (n) entity (that which is perceived or known or inferred to have its own distinct existence (living or nonliving))

Frage

Warum kann man trotzdem sagen “Er verschüttet ein Glas Wein”?

Mehrdeutigkeit von syntaktischen Funktionen 

Beispiel 10.4.6 (Mehrdeutige syntaktischen Funktionen: Deutsch nach Englisch).

Briefträger beißen Hunde selten.
Dogs seldom bite postmen.
Postmen seldom bite dogs.

Diagnose

Die halbfreie Wortstellung des Deutschen muss für die ZS Englisch ins SVO-Schema gebracht werden. Das Subjekt ist in der QS aber nicht morphologisch markiert.

Mehrdeutigkeit von syntaktischen Funktionen 

Beispiel 10.4.7 (Anbindung von PP: Deutsch nach Englisch).

Den Mann sah die Frau mit dem Fernglas .
The woman with the telescope saw the man.
The woman saw the man with the telescope.

Diagnose

Ob die PP als postnominaler Modifikator oder als Verb-Modifikator fungiert muss in der Übersetzung partiell aufgelöst werden.

Lösungsansatz für PP-Anbindungsdesambiguierung

Heuristiken (Bevorzuge eine enge Anbindung!) oder statistische Angaben über Präferenzen der Paare V NPP (“sehen”-“Fernglas”) vs. N NPP (“Frau”-“Fernglas”).

Falls die ZS die Mehrdeutigkeit ebenfalls ausdrücken kann, muss allerdings nicht aufgelöst werden.

Mehrdeutigkeit von Wortbedeutungen 

Hauptproblem

Die meisten Wörter haben mehrere Bedeutungen, welche in der ZS unterschiedlich lexikalisiert werden können!

Beispiel 10.4.8 (box in http://dict.leo.org: Englisch nach Deutsch).

Lösungsansätze

Markierung der Übersetzungspaare nach Fachgebiet (Agronomie, Botanik, Technik) und Stilebene. Heuristik: Bevorzuge ähnlich mehrdeutige Ausdrücken in der ZS! Wortsinndesambiguierung: Berechne die wahrscheinlichste Bedeutung aus dem Kontext!

Mehrdeutigkeit von Wortbedeutungen (Klassiker) 

Beispiel 10.4.9 (Mehrdeutige Wortform: Englisch nach Deutsch).

Diagnose

Die plausiblen Übersetzungen von “pen” in einem einzelnen Satz erfordern Weltwissen über die typische Beschaffenheit von Gegenständen und über gängige Situationen.

Welche Situationen sind typisch? [Melby 2001]

Siehe Abbildungen 10.10 und 10.11.


pict

Abbildung 10.10: Situationen zu “The pen was in the box” nach [Melby 2001]



pict

Abbildung 10.11: Situationen zu “The pen was in the box” nach [Melby 2001]


Enzyklopädisches Weltwissen 
Wir wissen, dass die involvierten Gegenstände typischerweise etwa folgende Ausdehnung haben:

Damit werden gewisse Verschachtelungen unwahrscheinlich.

Unwahrscheinlich, aber nicht unmöglich

Little Johnny was unhappy. On Christmas eve he got a pen (“auch Pferch”) for his toy horse. Now he had lost it. Suddenly he found it. The pen was in the box. He was happy again.

Mensch vs. Maschine

Menschen setzen Weltwissen bzw. Welterfahrung unbewusst und problemlos ein. Maschinelle Repräsentationen davon sind jedoch schwierig! Datenbasierte Ansätze finden Weltwissen enkodiert in den Sprachkorpora.

Mehrdeutigkeit von pragmatischen Kategorien 

Beispiel 10.4.10 (Mehrdeutige Wortform: Englisch nach Französisch).

Diagnose

Dieselben Wortformen in der QS (“thank you”) stehen für verschiedene Wortformen in der ZS (“merci”, “S’il vous plaît”).

Lösungsansatz

Um die korrekte Übersetzung zu finden, muss man wissen, ob es sich um eine Antwort auf eine Angebots-Frage handelt. Dieses Sprechakt-Wissen liefert eine Analyse auf der Ebene der Pragmatik .

10.4.2.  Idiome und Kollokationen

Definition 10.4.11 (idiomatische Wendung, Redewendung). Ein Idiom ist eine feste, mehrteilige Wortgruppe, welche eine semantische Einheit bildet, die nicht aus den Einzelteilen abgeleitet werden kann. Modifikationen oder Austausch von Elementen sind schlecht möglich.

Beispiel 10.4.12 (Idiom).

Übersetzbarkeit von Idiomen

Idiom lassen sich nur in Ausnahmefällen wörtlich von der QS in die ZS übersetzen.

Kollokationen 

Definition 10.4.13 (collocation). Eine Kollokation ist eine Kombination von Wörtern, welche sich gegenseitig bevorzugt verbinden und andere semantisch denkbare Kombinationen unterdrücken.

Beispiel 10.4.14 (Kollokation).

Übersetzbarkeit von Kollokationen

Wie bei den Idiomen kann die Übersetzung nicht wortweise isoliert erfolgen.

Beispiel: Intensivator als Kollokation 
Eine korrekte Übersetzung von “heavy smoker” in Deutsch oder Französisch bedingt:

Die Intensivierung kann als lexikalische Funktion betrachtet werden, welche vom Kopf einer Konstituente abhängig ist. [Arnold et al. 1994, 127]

Beispiel: Verbgefüge als Kollokationen 

Beispiel 10.4.15 (“support verbs” im Englischen ).

Lexikalische Funktion

Der Kern solcher Kollokationen liegt im Nomen. Die Funktion des Verbs kann sprachübergreifend abstrakt als “support verb” repräsentiert werden. Die genaue Verbalisierung ist aber nicht vorhersagbar, sondern muss im Lexikon erfasst werden.

10.4.3.  Sprachbau

Globale Diskrepanzen 
Die komparative Grammatikschreibung hat die verschiedenen grammatikalischen Prinzipien gesucht und ihre unterschiedlichen Parametrisierungen in den Einzelsprachen beschrieben.

global mismatches

Globale Unterschiede wie etwa Wortstellungsabweichungen stellen für primitive Ansätze bereits eine hohe Hürde dar.

Stellungsregularität Subjekt(S)-Objekt(O)-Verb(V) 
Bei Übersetzungen zwischen Sprachen mit unterschiedlicher SVO-Ordnung sind manchmal grosse Umstellungen notwendig.

Beispiel 10.4.16 (Englisch vs. Japanisch).

Lokale Diskrepanzen 

Beispiel 10.4.17 (Wortstellung).

Beispiel 10.4.18 (Head Switching).

Beispiel 10.4.19 (Zuordnung thematische Rolle zu syntaktischer Funktion).

Beispiel 10.4.20 (Passivkonstruktion).

Beispiel 10.4.21 (Gerundiv-Konstruktionen).