Methoden der TE

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

15.4. Methoden der TE

15.4.1. Linguistische Methoden der TE

Identiﬁziere speziﬁsch fachsprachliche Wortbestandteile!

Aﬃxe , d.h. Präﬁxe oder Suﬃxe matchen. Medizin: “-itis”, “-aemia”, “hypo-”, “peri-” wie in “hyperimmunoglobulinaemia”
Stämme matchen. Elektrotechnik: “-impuls-” wie in “Hardwareimpuls” oder “24-Volt-Impusgeber”

Diskussion

Direkt nur für einteilige Termini verwendbar.
Eng auf Anwendungsbereich abgestimmt (schlecht für kommerzielle Allzweck-TE).
Sprachübergreifend ähnliche Aﬃxe und Stämme helfe bei bilingualer TE: “Hypo-Hyperparathyreoidismus”, “hypo-hyperparathyroïdisme”, “hypo-hyperparathyroidis”

Identiﬁziere Termkandidaten anhand der Wortarten!

Sprachspeziﬁsche Wortgruppenmuster für Nominalphrasen

Adjektiv + Nomen: “non-ﬁnancial enterprise”
Nomen + Nomen: “interbank market”
Nomen + “of”-Präposition + Adjektiv + Nomen: “settlement of cross-border payments”

Probleme

Viel Noise! Insbesondere, wenn das Muster “Nomen” für einteilige Termkandidaten zugelassen ist!
Ausweg : Verwendung von Stoppwortlisten (manuell erstellt oder Sammlung hochfrequenter allgemeinsprachlicher Vokabeln)

Exkurs Xerox TermFinder

Bilinguale Termextraktion à la Xerox Termﬁnder

Extrahiere monolingual in beiden satzalignierten Paralleltexten alle Nominalphrasen über Wortgruppenmuster als Termkandidaten!
Bilde bilinguale Termkandidaten, indem alle monolingualen Termkandidaten aus jedem Parallelsatz miteinander gepaart werden!

Problem und Ausweg

Unzählige falsche Kombinationen!
Automatisches Ausﬁltern schlechter Paare mit Heuristiken (Daumenregeln) zu Übereinstimmung vonTermlänge, interner Struktur etc.

pict

Abbildung 15.6:

Termkandidatenpaarbildung in Xerox Termﬁnder

Exkurs Chamblon TerminologyExtractor

Monolinguale Termextraktion für Englisch/Französisch

Partitioniere die Tokens der Texte in unbekannte Wortformen (non words) und dem Lexikon bekannte Grundformen (words)!
- Systemlexikon (E/F) mit Lemmatisierung und eingebauter Stoppwortliste
- Benutzerlexikon erlaubt Erweiterungen für beide Kategorien.
Extrahiere die häuﬁgsten N-Gramme (Kollokationen) aus words und non words!
- Ignoriere reine Stoppwortkollokationen und Stoppwörter an Kollokationsrändern!
- Ignoriere eingebettete Kollokationen , ausser sie sind häuﬁger als die umfassendere Kollokation!

pict

Abbildung 15.7:

Lexikonpartitionierung nach Chamblon

pict
Quelle:http://www.chamblon.com

Abbildung 15.8:

Screenshot von Chamblon TerminologyExtractor

15.4.2. Quantitative Methoden der TE

Quantitative Methoden der TE I
Identiﬁziere Termkandidaten wegen deren abweichenden Vorkommenshäuﬁgkeit!

Idee

Fachwörter kommen in Fachtexten (SL) häuﬁger vor als in allgemeinen Texten (GL).

Deﬁnition 15.4.1 (Relative Häuﬁgkeit eines Worts im Text).

fT (w ) = Vorkommen--des-Worts-w-im-Text-T- Vorkommen aller W örter in Text T

Deﬁnition 15.4.2 (Weirdness: Falls hoher Wert, dann Termkandidat!).

f (w ) weird(w, SL,GL ) = -SL---- fGL (w )

Bedingungen

Für TE erst brauchbar bei Vorkommen > 4!
Geeignet für einteilige Termini. Ausser: Wortgruppen werden als Einheit betrachtet und gezählt!
Relativ sprachunabhängig

pict
http://www.systemquirk.com/

Abbildung 15.9:

Weirdness in SystemQuirk

Dokumentenbezogene Masse

Idee

Fachwörter treten nur in bestimmten Dokumenten auf – dort aber gehäuft!

Fachbegriﬀe als gute Dokumentdeskriptoren

Zwei wichtige Masse aus dem Information Retrieval zur Quantiﬁzierung der inhaltlichen Relevanz von Wörtern für ein bestimmtes Dokument lassen sich verwenden:

Termhäuﬁgkeit (TF): Wie oft kommt Term t in Dokument d vor?
Inverse Dokumenthäuﬁgkeit (IDF): Wieviele Dokumente enthalten Term t (nicht)?

Mehrteilige Termkandidaten identiﬁzieren

Idee der hohen Assoziationsstärke

Bestandteile von Termini treten auﬀällig häuﬁg miteinander auf!

Kontingenztabelle

= W1 und W2 kommen beide vor
= W1 kommt ohne W2 vor
= W2 kommen ohne W1 vor
= weder W1 noch W2 kommt vor

Gezählt wird über allen Wortgruppen.

Assoziationsmass

SMC (Simple Matching Coeﬃcient) ist einfach und brauchbar. Viele weitere Masse!

pict

Abbildung 15.10:

Kontingenztabelle und SMC

Bilinguales Zuordnen von Kandidaten (term alignment)

Ansatz nach [VINTAR 2002]

Kompilation von bidirektionalen, probabilistischem Lexika (word alignment) aus Paralleltexten
Alignierung eines (mehrteiligen) Terms T mit Z:
- Nimm alle Übersetzungen der Bestandteile von T
- Aligniere mit demjenigen Zielterm Z, dessen Bestandteile die höchste Summe der Wahrscheinlichkeiten der Übersetzungen von T aufweisen.

pict

Abbildung 15.11:

Bilinguales Lexikon Slowenisch-Englisch

Probleme

Seltene Wörter haben schlechte probabilistische Lexikoneinträge
Zuordnen von einteiligen (Komposita) zu mehrteiligen Termini

Beispiel für Zuordnung nach Vintar

pict
Quelle: [VINTAR 2002]

Abbildung 15.12:

Algorithmus von Vintar zur Term-Alignierung

15.4.3. Anwendung

Anwendungspotential

Bilinguale Termextraktion im Kontext von CAT-Systemen zur technischen Redaktion

noch engere Verknüpfung mit den Methoden der computergestützten Übersetzung (translation memories)
Extraktion von Termkandidaten vor der Übersetzung
Intelligenter Look-up während der Übersetzung
Konsistenzprüfungen nach der Übersetzung

Bilinguale Termextraktion für Informationssuche

CLIR (cross language information retrieval)

Monolinguale Terminologieextraktion

bleibt schwierig: Professionalisierung, Outsourcing

Methodische Entwicklungen

Verbesserte hybride Ansätze

Das Beste der linguistischen und statistischen Methoden kombinieren
Integration von robusten linguistischen Technologien (partielle syntaktische Analyse)
Hauptziel: Verminderung von Noise , d.h. höhere Präzision
Erkennen von Termvarianten

Nutzen bestehender terminologischer Bestände

Intelligente Integration von elektronisch verfügbaren Ressourcen: Terminologien, translation memories, Thesauri, Ontologien.

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]