Fünfte Sitzung - Das Lexikon in der Computerlinguistik (CL1), der Computerlexikographie (CL2) und der Computerkorpuslinguistik (CL3)

Was ist Computerlexikographie (CL2)?

lexikalische Informationen aus MRD extrahieren
Lexika erstellen für NLP-Systeme
Computertechniken verwenden um Wörterbücher für Menschen zu erstellen
keine Unterscheidung zwischen Computerlexikologie und Computerlexikographie
drei Ziele für CL2:
- Techniken zur automatischen Lexikonerstellung (sowohl neuer als auch übernommener)
- Entwicklung von Methoden für die automatische Lexikonerstellung für die:
  - maschinelle Verwendung
  - Verwendung durch den menschlichen Benutzer

Menschliche versus maschinelle Verwendung

MRD besteht aus einem Band mit Wörterbuch und Informationen zum Setzen
reiche Quelle für lexikalisches Wissen
deshalb besser ein existierendes MRD umzusetzen, als ein neues selbst zu bauen
trotzdem bleibt es ein Wörterbuch für den menschlichen Benutzer
setzt linguistische Hintergrundinformation und Weltwissen beim Benutzer voraus
verwendet visuelle Attribute um bestimmte Informationen anzuzeigen
Liste der Lexikoneinträge ist in alphabetischer Reihenfolge organisiert
Wörterbuch für maschinellen Gebrauch muß explizite formale Beschreibung der Daten haben
Vergleiche und Beziehungen zwischen den Lexikoneinträgen sollen möglich sein
Wörterbücher für menschlichen Gebrauch sind meist nicht detailiert genug
erste Ausgabe des LDOCE enthielt eine detaillierte Unterkategorisierung der wichtigen Wortklassen
wie sinnvoll ist es, ein MRD für NLP umzusetzen

Das Lexikon in CL2

kritsche Phase in CL2 als automatische Erstellung von Wörterbüchern für fortgeschrittenere Anwender erwartet wurde
NLP-Systeme benötigen explizite Informationen:

Information-Retrieval - IR:
braucht relationelle Thesauri
Frontends und Textanalyse:
braucht Wortmuster und Wortformen
Textgenerierung:
braucht größeren lexikalischen Datenbestand
maschinelle Übersetzung:
braucht Lexikondatenbanken für mehrere Sprachen
Korpus jetzt auch Datengrundlage für OALD, LDOCE, CIDE und TCEED

Beispiele von Erzeugnissen der CL2:

,,Oxford Advanced Learner's Dictionary`` (OALD)
- brauchbarer Umfang an Informationen
- es lesen zu können war dabei die einzige Computeranwendung
- unstrukturierte Form der Zeilen
- schwierig verschiedene Informationen zu identifizieren
,,Longman Dictionary of Contemporary English`` (LDOCE)
- Computer wurde aktiver eingesetzt
- Programme zur Konsistenzprüfung
- eigens entworfener Satz von Verbmustern und Adjektivkategorien
- Auswahl des Vokabulars der Definitionen anhand von Frequenzkriterien und pädagogischer Eignung
- Wortbedeutungsinformationen
,,Collins-Birmingham University International Language Database`` (COBUILD)
- von einem Korpus (7,3 Millionen Wortformen) hergeleitet
- verwendet daher nur real vorkommende Beispiele
- Programme für die Extraktion der Daten, zur Erstellung der Datenbankeinträge und für den Zugriff darauf
- Verwendung des Computers in allen vier Schritten der traditionellen Lexikographie:
  1. Sammlung der Daten
  2. Auswahl der Lexikoneinträge
  3. Erstellung der Lexikoneinträge
  4. Zusammenstellung der Lexikoneinträge
- gedruckte Version hat eine Extra-Spalte für:
  - formale/grammatische Charakteristika:
    - Syntax
    - Kollokationen
    - Morphologie
    - Etymologie
    - Phonologie
  - sematische Charakteristika:
    - Einheitlichkeit von Referent und Weltwissen
    - lexikalische Mengen (Wortfelder)
    - Nebenbedeutungen und Anspielungen
    - Übersetzungsäquivalente
    - Rede- und Satzfunktionen
    - Pragmatik
- Surface-Grammar von Sinclair

Was ist Computerkorpuslinguistik (CL3)?

Korpuslinguistik betreibt das Studium der Sprache auf der Basis von Korpora
zunehmender Einsatz von Computern zur Speicherung, Verarbeitung und Analyse
Speicherung riesiger Datenmengen sowie Methoden und Technologien der Informatik
Wandelung vom Teilgebiet der Sprachuntersuchung zur methodologischen Grundlage
Fokus der Computerkorpuslinguistik:
1. linguistische Performanz
2. linguistische Beschreibung
3. quantitative Modelle der Sprache
4. empirische Sicht der wissenschaftlichen Untersuchung
In Zukunft sind immer größere Mengen von Daten zu verarbeiten
Früher war eine Million laufender Wortformen viel, heute sind es erst 100 bis 1.000 Millionen
nicht alleine die Größe ist das Maß aller Dinge
Sammlung von maschinenlesbaren Texten ist Korpus, wenn sie repräsentativ sind
vier Sorten von Textsammlungen:

Archiv:
elektronisch lesbare Texte ohne Zusammenhang
Elektronische Bibliothek:
zusammenhängende elektronisch lesbare Texte
Korpus:
Untermenge einer elektronischen Bibliothek
Subkorpus:
Untermenge eines Korpus

Das Lexikon in CL3

Lexikon ebenfalls als eine periphere Komponente betrachtet
Techniken für qualifizierte Analyse der Sprache
Methoden, um die lexikalischen und lexikographischen Informationen zu extrahieren
als eine Alternative oder Ergänzung zu den MRDs
Methodologie vom COBUILD-Projekt dazu besser geeignet als herkömmliche Lexikographie oder Intuition eines CL1-Linguisten
erweiterbar zum Erwerb von lexikalischem Wissen
schritthalten mit der Entwicklung der Sprache

Weiter: Fünfte Sitzung (Referat) Zurück: Unterlagen Vorher: Vierte Sitzung

Oliver Lorenz Jörg Schreiber

zuletzt geändert am 14. Juli 1998