Zur Problematik der maschinellen Übersetzung von Nebensätzen zwischen den Sprachen Englisch und Deutsch

Stephan Mehl
Gerhard-Mercator-Universität
GH Duisburg
Computerlinguistik
D-47048 Duisburg
Tel. +49-203-3792876
Fax +49-203-3795835
he234me@unidui.uni-duisburg.de
Britta Heidemann
Kirchstr. 57
D-45479 Mülheim/Ruhr
Tel.+49-208-410552




Martin Volk
Universität Zürich
Institut für Informatik
Winterthurerstrasse 190
CH-8057 Zürich
Tel. +41-1-635-4325
Fax: +41-1-635-6809
volk@ifi.unizh.ch

Zusammenfassung

Kommerziell verfügbare Maschinelle Übersetzungssysteme können auf den ersten Blick eine erstaunliche Vielzahl syntaktischer Konstruktionen verarbeiten. Erst eine detaillierte Analyse zeigt die spezifischen Defizite auf.

Wir haben deshalb eine spezielle Testsuite mit 384 Sätzen (226 EN -> DE, 158 DE -> EN) zusammengestellt, die jeweils unterschiedliche Nebensätze enthalten. Dazu gehören indirekte Aussagesätze und Fragesätze, Adverbialsätze, Relativsätze, sowie Infinitiv-, Partizipial- und Gerundium-Konstruktionen.

Nebensätze eignen sich für eine solche Untersuchung besonders gut, weil bei ihrer Übersetzung zahlreiche syntaktische Faktoren eine Rolle spielen. Dazu gehören:

Da die Struktur und Funktion von Nebensätzen im Deutschen anhand äusserlicher Merkmale (Satzzeichen, Konjunktionen) deutlicher erkennbar ist als im Englischen, treten Probleme vor allem bei der Übersetzung vom Englischen ins Deutsche auf. Unsere Untersuchung behandelt deshalb vor allem diese Übersetzungsrichtung.

Untersucht wurden die PC-Systeme Langenscheidts T1 (GMS), Personal Translator Plus (IBM, von Rheinbaben & Busch), Power Translator (Globalink) und Systran (MySoft). Nur in wenigen Fällen scheinen bestimmte Konstruktionen allen Systemen gänzlich unbekannt zu sein (z.B. englische Partizipial-Nebensätze). Bei den anderen Fällen zeigt mindestens ein System, dass es prinzipiell möglich ist, dieses Phänomen korrekt zu behandeln. Die meisten Übersetzungsfehler beruhen auf fehlerhafter Abgrenzung des Nebensatzes vom Hauptsatz, Verwechslung der Nebensatztypen, fehlende semantische Analyse und im Bereich der Synthesefehler die fehlerhafte Wortstellung in der Zielsprache.

Kurz zusammengefasst erbrachte die Untersuchung die folgenden Ergebnisse:

  1. Die schwierigsten Nebensatzkonstruktionen für die Übersetzungssysteme sind Infinitivkonstruktionen, partizipiale Adverbialsätze und Gerundien. Relativsätze werden gut übersetzt, auch wenn das Relativpronomen fehlt.
  2. Von den untersuchten Systemen beherrscht Personal Translator Plus die meisten Nebensatzkonstruktionen. Langenscheidts T1 arbeitet sehr uneinheitlich, manchmal erstaunlich gut und manchmal vollkommen falsch.
  3. Die Resultate der Nebensatz-Übersetzungen vom Deutschen ins Englische sind tendenziell besser als in der umgekehrten Richtung.

Abstract

At first sight, commercially available machine translation systems can process a surprising variety of syntactic constructions. But a detailed analysis brings to light the many specific problems.

Therefore we have assembled a test suite of 384 sentences (226 EN -> DE, 158 DE -> EN) concentrating on subordinate clauses. These include indirect declarative clauses and interrogative clauses, adverbial clauses, relative clauses, as well as infinitive, participle and gerund clauses.

Subordinate clauses are interesting to evaluate, since their translation is influenced by a number of syntactic factors, including:

In general it is easier to determine the structure and function of subordinate clauses in German than in English. German is more consequent in using punctuation marks and conjunctions to mark these clauses. Our analysis therefore concentrates on the more difficult translations from English to German.

We evaluated four machine translation systems for PCs: Langenscheidts T1 (GMS), Personal Translator Plus (IBM, von Rheinbaben & Busch Verlag), Power Translator (Globalink) and Systran (Systran S.A.). We found only few syntactic constructions that are unknown to all of these systems (e.g. English participle clauses). In the other cases at least one of the systems proofed that it is possible to treat the phenomenon correctly. Most of the translation errors result from problems in finding the clause boundary between main and subordinate clause, mixing up of subordinate types, missing semantic analysis, and in the area of target sentence synthesis from incorrect word orderings.

In summary, our evaluation showed:

  1. The most difficult subordinate clauses for machine translation are infinitival, participle and gerund clauses. Most relative clauses are well translated, even if the relative pronoun has been omitted.
  2. Among the analysed systems Personal Translator Plus was able to handle the most phenomena. Langenscheidts T1 showed strong differences: it handles some clauses surprisingly well, while others were completely messed up.
  3. The results of translating subordinate clauses from German to English are better than translating vice versa.