Computerlinguistik Uni Erlangen
Weiter:
Fünfte Sitzung (Referat)
Zurück:
Unterlagen
Vorher:
Vierte Sitzung
Fünfte Sitzung - Das Lexikon in der Computerlinguistik (CL1),
der Computerlexikographie (CL2) und der Computerkorpuslinguistik
(CL3)
Was ist Computerlexikographie (CL2)?
- lexikalische Informationen aus MRD extrahieren
- Lexika erstellen für NLP-Systeme
- Computertechniken verwenden um Wörterbücher
für Menschen zu erstellen
- keine Unterscheidung zwischen Computerlexikologie und
Computerlexikographie
- drei Ziele für CL2:
- Techniken zur automatischen Lexikonerstellung (sowohl
neuer als auch übernommener)
- Entwicklung von Methoden für die automatische
Lexikonerstellung für die:
- maschinelle Verwendung
- Verwendung durch den menschlichen Benutzer
Menschliche versus maschinelle Verwendung
- MRD besteht aus einem Band mit Wörterbuch und
Informationen zum Setzen
- reiche Quelle für lexikalisches Wissen
- deshalb besser ein existierendes MRD umzusetzen, als ein
neues selbst zu bauen
- trotzdem bleibt es ein Wörterbuch für den
menschlichen Benutzer
- setzt linguistische Hintergrundinformation und Weltwissen
beim Benutzer voraus
- verwendet visuelle Attribute um bestimmte Informationen
anzuzeigen
- Liste der Lexikoneinträge ist in alphabetischer
Reihenfolge organisiert
- Wörterbuch für maschinellen Gebrauch muß
explizite formale Beschreibung der Daten haben
- Vergleiche und Beziehungen zwischen den
Lexikoneinträgen sollen möglich sein
- Wörterbücher für menschlichen Gebrauch sind
meist nicht detailiert genug
- erste Ausgabe des LDOCE enthielt eine detaillierte
Unterkategorisierung der wichtigen Wortklassen
- wie sinnvoll ist es, ein MRD für NLP umzusetzen
Das Lexikon in CL2
- kritsche Phase in CL2 als automatische Erstellung von
Wörterbüchern für fortgeschrittenere Anwender
erwartet wurde
- NLP-Systeme benötigen explizite Informationen:
- Information-Retrieval - IR:
- braucht relationelle Thesauri
- Frontends und Textanalyse:
- braucht Wortmuster und Wortformen
- Textgenerierung:
- braucht größeren lexikalischen Datenbestand
- maschinelle Übersetzung:
- braucht Lexikondatenbanken für mehrere Sprachen
- Korpus jetzt auch Datengrundlage für OALD, LDOCE, CIDE
und TCEED
Beispiele von Erzeugnissen der CL2:
- ,,Oxford Advanced Learner's Dictionary`` (OALD)
- brauchbarer Umfang an Informationen
- es lesen zu können war dabei die einzige
Computeranwendung
- unstrukturierte Form der Zeilen
- schwierig verschiedene Informationen zu identifizieren
- ,,Longman Dictionary of Contemporary English`` (LDOCE)
- Computer wurde aktiver eingesetzt
- Programme zur Konsistenzprüfung
- eigens entworfener Satz von Verbmustern und
Adjektivkategorien
- Auswahl des Vokabulars der Definitionen anhand von
Frequenzkriterien und pädagogischer Eignung
- Wortbedeutungsinformationen
- ,,Collins-Birmingham University International Language
Database`` (COBUILD)
- von einem Korpus (7,3 Millionen Wortformen) hergeleitet
- verwendet daher nur real vorkommende Beispiele
- Programme für die Extraktion der Daten, zur
Erstellung der Datenbankeinträge und für den
Zugriff darauf
- Verwendung des Computers in allen vier Schritten der
traditionellen Lexikographie:
- Sammlung der Daten
- Auswahl der Lexikoneinträge
- Erstellung der Lexikoneinträge
- Zusammenstellung der Lexikoneinträge
- gedruckte Version hat eine Extra-Spalte für:
- formale/grammatische Charakteristika:
- Syntax
- Kollokationen
- Morphologie
- Etymologie
- Phonologie
- sematische Charakteristika:
- Einheitlichkeit von Referent und Weltwissen
- lexikalische Mengen (Wortfelder)
- Nebenbedeutungen und Anspielungen
- Übersetzungsäquivalente
- Rede- und Satzfunktionen
- Pragmatik
- Surface-Grammar von Sinclair
Was ist Computerkorpuslinguistik (CL3)?
- Korpuslinguistik betreibt das Studium der Sprache auf der
Basis von Korpora
- zunehmender Einsatz von Computern zur Speicherung,
Verarbeitung und Analyse
- Speicherung riesiger Datenmengen sowie Methoden und
Technologien der Informatik
- Wandelung vom Teilgebiet der Sprachuntersuchung zur
methodologischen Grundlage
- Fokus der Computerkorpuslinguistik:
- linguistische Performanz
- linguistische Beschreibung
- quantitative Modelle der Sprache
- empirische Sicht der wissenschaftlichen Untersuchung
- In Zukunft sind immer größere Mengen von Daten zu verarbeiten
- Früher war eine Million laufender Wortformen viel,
heute sind es erst 100 bis 1.000 Millionen
- nicht alleine die Größe ist das Maß aller
Dinge
- Sammlung von maschinenlesbaren Texten ist Korpus, wenn sie
repräsentativ sind
- vier Sorten von Textsammlungen:
- Archiv:
- elektronisch lesbare Texte ohne Zusammenhang
- Elektronische Bibliothek:
- zusammenhängende elektronisch lesbare Texte
- Korpus:
- Untermenge einer elektronischen Bibliothek
- Subkorpus:
- Untermenge eines Korpus
Das Lexikon in CL3
- Lexikon ebenfalls als eine periphere Komponente betrachtet
- Techniken für qualifizierte Analyse der Sprache
- Methoden, um die lexikalischen und lexikographischen
Informationen zu extrahieren
- als eine Alternative oder Ergänzung zu den MRDs
- Methodologie vom COBUILD-Projekt dazu besser geeignet als
herkömmliche Lexikographie oder Intuition eines
CL1-Linguisten
- erweiterbar zum Erwerb von lexikalischem Wissen
- schritthalten mit der Entwicklung der Sprache
Weiter:
Fünfte Sitzung (Referat)
Zurück:
Unterlagen
Vorher:
Vierte Sitzung
Oliver Lorenz
Jörg
Schreiber
zuletzt geändert am 14. Juli 1998