Maschinelle Übersetzung I
Stefan Frey, Daniel Fuchs, Res Mezger, Andrea Schlegel

Summarischer Überblick über die Geschichte der maschinellen Übersetzung

Die Wort-für-Wort Übersetzung steht am Anfang der Entwicklung der maschinellen Übersetzung, wie der Geschichte der MÜ zu entnehmen ist.
 

Die Module der Wort-für-Wort Übersetzung

Um die verschiedenen Module (Tokenizer, Reduzieren der Wortformen, Lexical Lookup) sinnvoll zu demonstrieren, stützen wir uns auf den folgenden Artikel aus einer Computer-Zeitschrift. Dieser kurze Text weist schon einige Herausforderungen auf, die wir mit unseren Modulen zu knacken versuchen werden.

Ursprungsttext Deutsch

Win 2000 ist nicht zuverlässig genug

Vor übertriebenen Erwartungen an die erste Version von Windows 2000 haben Marktbeobachter gewarnt. Das neue Betriebssystem werde seine Vorzüge haben - ähnlich in der Zuverlässigkeit wie NT 4.0 und die 9x-Systeme seien jedoch erst die nachfolgenden Versionen, so Chef-Analyst Tom Bittman von Gartner Group. Und ab welchem Zeitpunkt Windows 2000 mit Betriebssystemen wie z.B. Unix, Linux oder AS/400 mithalten könne, stehe noch in den Sternen. Nicht zu unterschätzen sei auch der Aufwand, die Mitarbeiter auf NT zu schulen. Ausserdem könne es zwar durchaus sein, dass Microsoft ihr erklärtes Ziel, die erste Version von Windows 2000 am 6. Oktober auszuliefern, erreicht. Nachdem die Beta-3-Testphase jedoch erst letzte Woche begonnen hat, sei es aber unwahrscheinlich, dass es sich dabei wirklich um eine endgültige Version handelt. Firmen sollten daher besser das erste Service Release oder Upgrade abwarten, bevor sie Win 2000 auf breiter Ebene installierten. (PC-Welt, 05.05.99)

Tokenizer

Reduzieren der Wortformen

Lexical Lookup
 

Eine Wort-für-Wort Übersetzung

Nach Durchlauf des Tokenizers und des WfW-Übersetzungsprogramms, welches einen Lexical Lookup einbezieht, ergab sich folgende Übersetzung:

Englische Übersetzung gemäss Maschine

Win 2000 is not reliable enough

{Of, Before, Ago} exaggerated expectations {towards, at, to} the first version {of, from} windows 2000 have market observers warned . The new operating system will {its, his} advantages have - similar in the reliability {as, how, like} nt 4.0 and the 9x- systems are however only the later versions , according to chief analyst tom bittman {of, from} gartner group . And from what time windows 2000 with operating systems {as, how, like} such as unix , linux or as/400 keep up can , stands still in the stars . Not to underestimate is also the effort , the employees to nt to train . Besides can it nevertheless well be , that microsoft {her, its} declared {goal, aim, objective} , the first version {of, from} windows 2000 on 6. october {distribute, deliver, supply} , reaches . Since the beta-3 - test phase however only last week started has , is it but {unlikely, improbable} , that it {himself, herself, itself} this really to a final version acts . Companies should therefore better the first service release or upgrade wait , before they win 2000 to widely level install . ( pc-welt , 05.05.99 )

Obenstehende Übersetzung unseres Beispieltextes wurde von einem einfachen Wort-für-Wort Übersetzungssystem angefertigt. Dieses in Prolog geschriebene Programm operiert über dem manuell korrigierten Output des Tokenizers von Toni Arnold. Es verfügt über ein Vollformenlexikon, das heisst jede im Text vorkommende Wortform ist im Lexikon mit der englischen Entsprechung in Bezug auf die morphosyntaktischen Merkmale (Person, Numerus etc.) aufgelistet.

Die geschweiften Klammern { } stellen alternative Übersetzungen für das deutsche Ausgangswort dar. Welches Wort sich tatsächlich eignet, müsste aufgrund weiterer syntaktischer und semantischer Informationen ermittelt werden, z.B. bei der Nachbearbeitung durch den Humanübersetzer.

Die ausgewählten farbigen Textpartien dienen Vergleichszwecken mit der untenstehenden Humanübersetzung:

Englische  Humanübersetzung

Win 2000 is not reliable enough

Market observers have warned of exaggerated expectations towards the first version of Windows 2000. The new operating system will have its advantages - however, only later versions are similar in reliability to NT 4.0 and the 9x systems, according to chief analyst Tom Bittman of Gartner Group. From what time onwards Windows 2000 can keep up with operating systems such as Unix, Linux or AS/400, is still in the stars. The efforts to train employees in NT should also not be underestimated. Besides, it could well be that Microsoft reaches its declared goal to distribute the first version of Windows 2000 on 6 October. However, since the beta-3 test phase only started last week, it is unlikely that this is actually a final version. Companies should therefore better wait for the first service release or upgrade before they widely install Win 2000.
(PC World, 05.05.99)

Aus dem Vergleich der farbig unterlegten Textpartien in beiden Übersetzungen wird deutlich, was ein Wort-für-Wort-Übersetzungsprogramm zu leisten vermag und was nicht. Solche Übersetzungssysteme sind prinzipiell nicht in der Lage, bestimmte Phänomene korrekt zu übersetzen. Genaueres dazu /detaillierte Erläuterung der farbig unterlegten Textpartien.

Der praktische Nutzen eines Wort-für-Wort Übersetzungssystems :
Ziemlich begrenzt, da viele wichtige Probleme nicht gelöst werden können, indem bloss isolierte Wörter übersetzt werden. Nötig wären zusätzliche Informationen über die syntaktischen, morphologischen und semantischen Gegebenheiten eines Satzes. Für die Humanübersetzung ist ein WfW-Übersetzungssystem vollkommen unbrauchbar, da der Nachbearbeitungsaufwand den Aufwand für eine Humanübersetzung von Grund auf weit übertreffen würde. Sinnvoll wäre ein solches System höchstens für den Laien, der einen Text grob verstehen möchte.
 

Eine interaktive Übung

Hier besteht die Möglichkeit, die soeben gewonnenen Kenntnisse der WfW-Übersetzung in einer interaktiven Übung zu testen.
 
 

* * *