15.4.  Methoden der TE

15.4.1.  Linguistische Methoden der TE

Identifiziere spezifisch fachsprachliche Wortbestandteile!

Diskussion

Identifiziere Termkandidaten anhand der Wortarten!

Sprachspezifische Wortgruppenmuster für Nominalphrasen

Probleme

Exkurs Xerox TermFinder

Bilinguale Termextraktion à la Xerox Termfinder

  1. Extrahiere monolingual in beiden satzalignierten Paralleltexten alle Nominalphrasen über Wortgruppenmuster als Termkandidaten!
  2. Bilde bilinguale Termkandidaten, indem alle monolingualen Termkandidaten aus jedem Parallelsatz miteinander gepaart werden!

Problem und Ausweg


pict

Abbildung 15.6: Termkandidatenpaarbildung in Xerox Termfinder

Exkurs Chamblon TerminologyExtractor

Monolinguale Termextraktion für Englisch/Französisch

  1. Partitioniere die Tokens der Texte in unbekannte Wortformen (non words) und dem Lexikon bekannte Grundformen (words)!
  2. Extrahiere die häufigsten N-Gramme (Kollokationen) aus words und non words!

pict

Abbildung 15.7: Lexikonpartitionierung nach Chamblon


pict
Quelle:http://www.chamblon.com

Abbildung 15.8: Screenshot von Chamblon TerminologyExtractor


15.4.2.  Quantitative Methoden der TE

Quantitative Methoden der TE I
Identifiziere Termkandidaten wegen deren abweichenden Vorkommenshäufigkeit!

Idee

Fachwörter kommen in Fachtexten (SL) häufiger vor als in allgemeinen Texten (GL).

Definition 15.4.1 (Relative Häufigkeit eines Worts im Text).

fT (w ) = Vorkommen--des-Worts-w-im-Text-T-
         Vorkommen   aller W örter in Text T

Definition 15.4.2 (Weirdness: Falls hoher Wert, dann Termkandidat!).

                   f   (w )
weird(w, SL,GL ) = -SL----
                   fGL (w )

Bedingungen


pict
http://www.systemquirk.com/

Abbildung 15.9: Weirdness in SystemQuirk


Dokumentenbezogene Masse

Idee

Fachwörter treten nur in bestimmten Dokumenten auf – dort aber gehäuft!

Fachbegriffe als gute Dokumentdeskriptoren

Zwei wichtige Masse aus dem Information Retrieval zur Quantifizierung der inhaltlichen Relevanz von Wörtern für ein bestimmtes Dokument lassen sich verwenden:

Mehrteilige Termkandidaten identifizieren

Idee der hohen Assoziationsstärke

Bestandteile von Termini treten auffällig häufig miteinander auf!

Kontingenztabelle

Gezählt wird über allen Wortgruppen.

Assoziationsmass

SMC (Simple Matching Coefficient) ist einfach und brauchbar. Viele weitere Masse!


pict

Abbildung 15.10: Kontingenztabelle und SMC

Bilinguales Zuordnen von Kandidaten (term alignment)

Ansatz nach [VINTAR 2002]

  1. Kompilation von bidirektionalen, probabilistischem Lexika (word alignment) aus Paralleltexten
  2. Alignierung eines (mehrteiligen) Terms T mit Z:

pict

Abbildung 15.11: Bilinguales Lexikon Slowenisch-Englisch

Probleme

Beispiel für Zuordnung nach Vintar


pict
Quelle: [VINTAR 2002]

Abbildung 15.12: Algorithmus von Vintar zur Term-Alignierung

15.4.3.  Anwendung

Anwendungspotential

Bilinguale Termextraktion im Kontext von CAT-Systemen zur technischen Redaktion

Bilinguale Termextraktion für Informationssuche

CLIR (cross language information retrieval)

Monolinguale Terminologieextraktion

bleibt schwierig: Professionalisierung, Outsourcing

Methodische Entwicklungen

Verbesserte hybride Ansätze

Nutzen bestehender terminologischer Bestände

Intelligente Integration von elektronisch verfügbaren Ressourcen: Terminologien, translation memories, Thesauri, Ontologien.