Stephan Mehl Gerhard-Mercator-Universität GH Duisburg Computerlinguistik D-47048 Duisburg Tel. +49-203-3792876 Fax +49-203-3795835 he234me@unidui.uni-duisburg.de |
Britta Heidemann Kirchstr. 57 D-45479 Mülheim/Ruhr Tel.+49-208-410552 |
Martin Volk Universität Zürich Institut für Informatik Winterthurerstrasse 190 CH-8057 Zürich Tel. +41-1-635-4325 Fax: +41-1-635-6809 volk@ifi.unizh.ch |
Kommerziell verfügbare Maschinelle Übersetzungssysteme können auf den ersten Blick eine erstaunliche Vielzahl syntaktischer Konstruktionen verarbeiten. Erst eine detaillierte Analyse zeigt die spezifischen Defizite auf.
Wir haben deshalb eine spezielle Testsuite mit 384 Sätzen (226 EN -> DE, 158 DE -> EN) zusammengestellt, die jeweils unterschiedliche Nebensätze enthalten. Dazu gehören indirekte Aussagesätze und Fragesätze, Adverbialsätze, Relativsätze, sowie Infinitiv-, Partizipial- und Gerundium-Konstruktionen.
Nebensätze eignen sich für eine solche Untersuchung besonders gut, weil bei ihrer Übersetzung zahlreiche syntaktische Faktoren eine Rolle spielen. Dazu gehören:
Da die Struktur und Funktion von Nebensätzen im Deutschen anhand äusserlicher Merkmale (Satzzeichen, Konjunktionen) deutlicher erkennbar ist als im Englischen, treten Probleme vor allem bei der Übersetzung vom Englischen ins Deutsche auf. Unsere Untersuchung behandelt deshalb vor allem diese Übersetzungsrichtung.
Untersucht wurden die PC-Systeme Langenscheidts T1 (GMS), Personal Translator Plus (IBM, von Rheinbaben & Busch), Power Translator (Globalink) und Systran (MySoft). Nur in wenigen Fällen scheinen bestimmte Konstruktionen allen Systemen gänzlich unbekannt zu sein (z.B. englische Partizipial-Nebensätze). Bei den anderen Fällen zeigt mindestens ein System, dass es prinzipiell möglich ist, dieses Phänomen korrekt zu behandeln. Die meisten Übersetzungsfehler beruhen auf fehlerhafter Abgrenzung des Nebensatzes vom Hauptsatz, Verwechslung der Nebensatztypen, fehlende semantische Analyse und im Bereich der Synthesefehler die fehlerhafte Wortstellung in der Zielsprache.
Kurz zusammengefasst erbrachte die Untersuchung die folgenden Ergebnisse:
At first sight, commercially available machine translation systems can process a surprising variety of syntactic constructions. But a detailed analysis brings to light the many specific problems.
Therefore we have assembled a test suite of 384 sentences (226 EN -> DE, 158 DE -> EN) concentrating on subordinate clauses. These include indirect declarative clauses and interrogative clauses, adverbial clauses, relative clauses, as well as infinitive, participle and gerund clauses.
Subordinate clauses are interesting to evaluate, since their translation is influenced by a number of syntactic factors, including:
In general it is easier to determine the structure and function of subordinate clauses in German than in English. German is more consequent in using punctuation marks and conjunctions to mark these clauses. Our analysis therefore concentrates on the more difficult translations from English to German.
We evaluated four machine translation systems for PCs: Langenscheidts T1 (GMS), Personal Translator Plus (IBM, von Rheinbaben & Busch Verlag), Power Translator (Globalink) and Systran (Systran S.A.). We found only few syntactic constructions that are unknown to all of these systems (e.g. English participle clauses). In the other cases at least one of the systems proofed that it is possible to treat the phenomenon correctly. Most of the translation errors result from problems in finding the clause boundary between main and subordinate clause, mixing up of subordinate types, missing semantic analysis, and in the area of target sentence synthesis from incorrect word orderings.
In summary, our evaluation showed: