12.3. Computerlexikographie
Computer und Lexikographie
Sicht
- Lexikograph
: Das Erstellen und Publizieren von Wörterbüchern geschieht computergestützt.
- Lexikonbenutzer
: Elektronische Wörterbücher unterstützen Endbenutzer beim Schreiben (Korrekturprogramme,
effiziente Recherche, Hypermedien).
- Systeme
: Viele (natürlichsprachliche) Applikationen benötigen lexikographische Ressourcen
unterschiedlicher Grösse und Genauigkeit: Akustische Maschinensteuerung (klein),
Diktiersoftware (10’000), Maschinelle Übersetzung (100’000)
12.3.1. Akquisition
Lexikalische Akquisition
Quellen
- Textsammlungen
(sog. Textkorpora):
- Belegsammlungen
- ältere oder andere (Fach-)Wörterbücher
- Lexikographische Intuition
Lexikalische Akquisition
Hilfsmittel
- Wortkonkordanz
(KWIC: key word in context)
- Suchanfragen
bzw. Suche über linguistisch erschlossenen Korpora (PoS-Tagging, Lemmatisierung, Chunking,
Parsing)
- Statistische Auswertungen
: Erkennung von Mehrwortausdrücken und Kollokationen
Beispiel 12.3.1 (Korpus-Abfragetool Xaira).
Ein modernes, XML-basiertes, multilinguales (Unicode-basiert), frei verfügbares Tool für Abfrage,
Exploration und Export von linguistisch annotierten Kopora. Eine anschauliche Einführung gibt
[MCENERY 2005].
Beispiel: Bedeutungserschliessung mit KWIC
Kann man die Bedeutung des Worts “hookah” aus den Verwendungskontexten erschliessen?
Online-KWIC: Bedeutung von “all but” mit NP, VP, AP?
skills. But, it is Oxfam policy to pay all but the lowest grades of staff below the rate
photo [/c] [p] At Yevlakh children’s hospital, all but half a dozen of the sickest children are
road-paving, and that explains why the plan is all but dead. In the interest of breaking
partner isn’t so perfect and beautiful after all. But Petra and I are the opposite. We know
for storage. [p] The pole has a kevlar wrap, and all but the top four sections and the butt have a
days before there was ultimate silence. [p] All but a handful of the objects here are
centre of Asia, a recent clean-up campaign has all but closed down the main tourist districts.
not unusual in this area. He pointed out that all but five of the one hundred and fifty six
significantly improved the quality of life for all but a very small proportion of sufferers ro/XX
she was a child. Autumn had tried to enjoy it all, but the memories of Lonnie were still too
each of the people lying across the road. All but one were dead, and the one who appeared to
of dictatorial collectivism inevitable in all but an archeo-Benthamite society." Words to
inside, her resistance, her energy, her hope, all but gone. They had told her she might feel
mind-part denied this. What was he, after all, but a purple-crested savage? One of those
side door of Lodestar House - the front door is all but hidden by ivy, and has obviously not been
Cut worth making. It is a relief to see that all but a few backbenchers seem to have given up
declared a sarcastic headline in France-Soir. All but a handful of postal employees have
to protect the civic order in the interests of all, but to proffer the most rights with the least
of total carpet exports. [p] However, it is all but impossible to verify their pledge. Carpet
the dissident human rights campaigner, has all but forgotten the euphoria he felt at the
of the early modern period, the simple, now all-but-unassimilable fact that they were carried
year term, making a potential eleven years in all. But that political correctness will surely
no legal standing in court. [p] He has spent all but seven months of the past eight years in
But Blandford has kept this ambition a secret to all but a couple of friends. [p] I don’t need to
[p] The dramatic developments came as rescuers all but gave up hope of finding more survivors in
age. Yet in most ways he was not a modern man at all but a throwback to a much earlier age of high
tell you love them," Mr. Starr said to Frannie, all but ignoring Prue’s presence. ‘It shows in
the KPD’s sources within the Reichsmarine had all but dried up. Word reached police and naval
barren shingle several thousand yards distant. All but submerged in the dark Arabian Sea, the
population of the Western Hemisphere was all but exterminated by their sudden exposure to
ninety miles an hour; track conditions now limit all but some western trains to seventy-nine miles
Tis not a year or two shows us a man. They are all but stomachs, and we all but food; They eat us
getting it removed is–is terribly expensive and all, but this tree of ours, it just seemed like
anintroduction to constitutional negotiations. All but two of the delegations signed on to a
Clinton don’t drink that good stuff. [p] Glass: All but one of the voters at Margaret’s last night
going to help the Kurds FX? [F01] Well this is all but they’ve got to take [ZF1] their [ZF0]
always late when in fact she was never late at all but they got the wrong name [M01] Yes. [F01]
coal sacks isn’t not my sort of thing at all. But er [ZF1] they [ZF0] they really do enjoy
heartache. [F0X] Mm. [F01] Not to worry about it all. But it’s worth it you’re saying. [F0X] No.
[F02] road. [ZF1] That’s [ZF0] that’s all. But I mean that’s doesn’t involve us [F01] Mm
Automatische Akquisition von lexikalischer Information
Aus Lexika und Wörterbüchern (ab 1980 erstmals erfolgreich)
- Extraktion von NLP-relevanter Information aus elektronischen Versionen von gedruckten
Wörterbüchern
- Heute: Wikipedia benutzen für semantische Ähnlichkeitsmasse
Aus Textkorpora (ab 1990 mit statistischen Methoden)
- Syntaktische Subkategorisierung von Verben
- Lexikalische Taxonomien (Hypernymie)
- Kollokationen (z.B. Nomen + Präposition für die Auflösung von ambigen
PP-Anbindungen)
- Bilinguale Lexika aus Paralleltexten
12.3.2. Repräsentation
Repräsentation lexikalischer Information
- Datenbanken
: relational (SQL: Structured Query Language) oder objektorientiert
- Text-basierte Markup-Sprachen
: SGML (Standard Generalized Markup Language), bzw. seit einigen Jahren XML (Extensible
Markup Language)Vorteil: Bereits existierende Verarbeitungssoftware!
- Merkmalstrukturen
: Programmiersprachenabhängige Implementation; DATR-Formalismus; XML-kodiert in neueren
lexikographischen Standardisierungsvorschlägen (XML-TEI; ISO 24610-1:2006)
- Endliche Transduktoren
…
Standards für Merkmalstrukturen
ISO 24610-1:2006 provides a format for the representation, storage and exchange of
feature structures in natural language applications concerned with the annotation,
production or analysis of linguistic data. It also defines a computer format for the
description of constraints that bear on a set of features, feature values, feature
specifications and operations on feature structures, thus offering a means of checking
the conformance of each feature structure with regards to a reference specification.
Die XML-basierte TEI-Version enthält Kapitel, welche durchaus Verwandtschaft mit dem
ISO-Standard hat: http://www.tei-c.org/Guidelines/P4/html/FS.html
CELEX-Datenbasis (bis 2001 entwickelt)
- http://www.ru.nl/celex
- Relational aufgebaute, textbasierte Repräsentation
- Angaben zu Orthographie, Phonologie, Morphologie, Syntax und Häufigkeit
- Phonetische Repräsentation (Computer Phonetic Alphabet)
COMLEX: Merkmalstrukturbasieres Format (LISP)
Beispiel 12.3.2 (Syntaktisch ausgerichtetes Lexikon).
(NOUN :ORTH "word" :FEATURES ((COUNTABLE))
:SUBC ((NOUN-THAT-S)
(NOUN-BE-THAT-S)))
|
Erklärung zum Subkategorisierungsrahmen [WOLFF et al. 1998]
noun-be-that-s
Nouns of this class occur with the copula “be” followed by a sentential complement. They do not also
allow sentential complements within the noun phrase.
Beispiel 12.3.3 (Textbeispiel: Wie steht es um die Semantik?).
The latest word is that Michelle Pfeiffer wants the role abandoned by Davis. (“Neuesten Gerüchten
zufolge will Michelle …”)
OLIF: XML-basiertes Format
12.3.3. Standards
Warum Standards?
- Erstellung
umfangreicher lexikalischer Ressourcen ist aufwändig und teuer.
- Wiederverwendung
ist/wäre ein wichtiges Anliegen (für die Forschung): Wie steht es um die Industrie?
- Unterschiedliche NLP-Applikationen haben unterschiedliche Ansprüche
ans Lexikon: Rechtschreibeprüfung, Wortformenreduktion für IR, Maschinelle Übersetzung,
Terminologie-Verwaltung, Multilinguales IR, Text-To-Speech-Systeme, Speech-To-Text-Systeme
- Gleiche NLP-Applikationen haben ganz unterschiedlichen lexikalische Anforderungen je nach
Systemaufbau
- Lässt sich ein (kleinster) gemeinsamer Nenner finden?
- Werden die Daten auch auf den gemeinsamen Nenner gebracht?
ISO/TC 37: Terminology and other language and content resources
Akronyme
- ISO: International Organization for Standardization
- TC: Technical Commitee
- SC: Subcommitee
ISO/TC 37 [ISOTC37 2006]
Koordiniert die Arbeit der Unterkommitees
- ISO/TC 37/SC 1 “Principles and methods”
- ISO/TC 37/SC 2 “Terminography and lexicography”
- ISO/TC 37/SC 3 “Computer applications for terminology”
- ISO/TC 37/SC 4 “Language resource management” http://www.tc37sc4.org
SGML/XML-basierte Formate für Wörterbücher
Mit XML und UNICODE sind die Repräsentationsprobleme der Schriftsysteme auf dem Computer im
Prinzip behoben (inkl. Lautschrift)
Standardflut bei elektr. Fachwörterbüchern
Diskussion
Probleme von Standards
- Eine vernünftige Balance zwischen abstrakten Meta-Standards und brauchbaren Lösungen
scheint schwierig.
- Es gibt eher zuviele Initiativen als zuwenig!
- Die Bedürfnisse von Industrie und Wissenschaft decken sich nicht unbedingt.
- Der mühelose Austausch und Einbau von lexikalischen Ressourcen aus verschiedenen
Quellen bleibt Zukunftsmusik.
- Es gibt viele proprietäre und wenige offene Ressourcen.