The Automatic Translation of Idioms.
Machine Translation vs. Translation Memory Systems.

Martin Volk
University of Zurich
Department of Computer Science
Computational Linguistics
Winterthurerstr. 190
CH-8057 Zurich
volk@ifi.unizh.ch

To appear in: Nico Weber (ed.): Machine Translation: Theory, Applications, and Evaluation. An assessment of the state of the art. St. Augustin: gardez-Verlag. 1998.

Abstract

Translating idioms is one of the most difficult tasks for human translators and translation machines alike. The main problems consist in recognizing an idiom and in distinguishing idiomatic from non-idiomatic usage. Recognition is difficult since many idioms can be modified and others can be discontinuously spread over a clause. But with the help of systematic idiom collections and special rules the recognition of an idiom candidate is always possible. The distinction between idiomatic and non-idiomatic usage is more problematic. Sometimes this can be done by means of special words that are only used in an idiom. But in general this distinction is a question of semantics and pragmatics and therefore beyond the abilities of current translation systems. In this paper we investigate the requirements for automatically recognizing idioms and we check whether idiom recognition is possible within current translation systems, i.e. machine translation and translation memory systems. This is of current interest since the developers of translation systems have started to include huge idiom collections in their products.


Deutsche Zusammenfassung

Die Übersetzung von idiomatischen Wendungen ist eine der schwierigsten Aufgaben für menschliche Übersetzer wie auch für Übersetzungsprogramme. Für die Maschine besteht das Problem einerseits in der Erkennung eines möglichen Idioms und andererseits in der Unterscheidung zwischen idiomatischer und nicht-idiomatischer Verwendung. Die Erkennung ist schwierig, da viele Idiome verändert werden können (z.B. durch Adjektiv-Attribute) und auch verteilt in einem Satz auftreten können. Aber unter Rückgriff auf systematische Idiomsammlungen und spezielle Regeln ist die Erkennung von Idiomkandidaten immer möglich. In solchen Idiomsammlungen muss jedoch jedes Idiom mit seinen besonderen Eigenschaften annotiert sein. Diese Eigenschaften umfassen morphologische und syntaktische Besonderheiten (viele Idiome können nur in beschränktem Masse flektiert und attributiert werden) wie auch Möglichkeiten der Übertragung des Idioms in seine eigentliche Bedeutung.

Die Unterscheidung zwischen idiomatischer und nicht-idiomatischer Verwendung ist problematischer. Manchmal kann diese Unterscheidung mit Hilfe speziellen lexikalischen Materials geschehen, das nur noch in Idiomen verwendet wird. Aber im Allgemeinen ist diese Unterscheidung eine Frage von Semantik und Pragmatik und übersteigt deshalb die Möglichkeiten gegenwärtiger Übersetzungssysteme.

In diesem Beitrag untersuchen wir die Systemanforderungen zur automatischen Erkennung von Idiomen, und wir überprüfen an zwei gegenwärtig kommerziell vertriebenen Systemen, ob Idiomerkennung von diesen Übersetzungssystemen (Maschinellen Übersetzungssystemen und Übersetzungsspeicher-Systemen) unterstützt wird. Es stellt sich dabei heraus, dass die Entwickler dieser Übersetzungssysteme ihren Produkten grosse Idiomsammlungen beigefügt haben, aber dass diese Sammlungen nur zum manuellen Nachschlagen und nicht im automatischen Übersetzungsprozess eingesetzt werden können. Vermutlich hängt das damit zusammen, dass die Idiomsammlungen nicht hinreichend strukturiert und annotiert sind, um sie für die automatischen Übersetzung nutzen zu können.

Idiomatische Wendungen sind typischerweise nicht vollständige Sätze sondern Nominal- oder Verbalphrasen. Sie liegen damit ungünstig sowohl für die Maschinelle Übersetzung, die wortweise arbeitet, als auch für Übersetzungsspeicher-Systeme, die komplette Sätze archivieren. Wir schlagen deshalb vor, von einem Phrasen-Archiv auszugehen, dass als kleinste Einheiten die Wörter des Systemlexikons enthält, als mittlere Einheiten idiomatische Phrasen und als grösste Einheiten die Sätze des Übersetzungsspeichers. Der automatische Übersetzungsprozess muss dann auf die Benutzung der grösstmöglichen Einheiten aus diesem Phrasen-Archiv abzielen.