15.2. Termextraktion (TE)
15.2.1. Utopien
Die monolinguale Utopie
Vollautomatisches Erarbeiten aller relevanten Fachwörter aus einsprachigen, elektronisch gespeicherten
Texten
- per Knopfdruck
- mit höchster Genauigkeit
- unabhängig von Sprache, Fachgebiet, Datei- und Textformat
- mit Einbezug bereits vorhandener Terminologiebestände
- inklusive terminologischer Varianten
- inklusive wichtiger linguistischer Merkmale wie Grundform, Wortart bzw. Wörterstruktur,
Verwendungsrestriktionen, ...
- inklusive Häufigkeiten, typischen Belegstellen, Quellenangabe
- unter optimaler Einbettung in den Arbeitsablauf (work flow)
Die bilinguale Utopie
Vollautomatisches Erarbeiten der Übersetzungspaare aller relevanten Fachwörter aus zweisprachigen
Parallel-Texten
- mit der Qualität der monolingualen Termextraktion
- inklusive Zuordnung von linguistischen Merkmalen über die Sprachen hinweg
- mit Übersetzungsvarianten
- inklusive Angaben zu Häufigkeit und Belegstellen der Übersetzungspaare
15.2.2. Realität
Termextraktion nüchtern betrachtet
Definition 15.2.1 (automatic terminology extraction). Automatische Termextraktion
= computergestütztes Identifizieren von potentiellen terminologischen Einträgen (Termkandidaten)
Warum so bescheiden?
- technisches Problem
: unzureichende Sprachtechnologie
- linguistisches Problem
: mangelhafte Kriterien für Termhaftigkeit
- philosophisches Problem
: Was sind relevante Einträge eines Fach- bzw. Spezialvokabulars?
Abhängig von Verwendungszweck
(normativer bzw. deskriptiver Terminologieaufbau, Übersetzung, IR) und vom intendierten
Zielpublikum
Von Zeichenketten zu Konzepten
Termini à la ISO: “special language concept designator”
- Termini konstituieren sich über ihre semantische Funktion.
- Knacknuss: Wie kann der Computer als “Nicht-Muttersprachler” rohe elektronischen
Textdaten auf spezialsprachliche Bedeutungen beziehen?
Von Zeichenketten zu Konzepten
- Segmentieren
: Wo beginnen und wo enden ein- oder mehrwortige Textsegmente? Problem der Identifikation
von Subsegmenten: “nuclear power”, “power plant”
- Klassifizieren
: Welche Textsegmente beziehen sich auf spezialsprachliche Konzepte? Die Einordnung ist meist
graduell und textsortenabhängig.