Lexikologie, Lexikographie und Lexikonstrukturen

Morphologieanalyse und Lexikonaufbau (10. Vorlesung)

Dozent: Martin Volk

Übersicht


Motivation

  1. Wie kann die Wörterbucherstellung von der Computerlinguistik profitieren?
  2. Wie kann die Computerlinguistik (NLP) von der Information in Wörterbüchern profitieren?

Anmerk.: Wenn im folgenden von 'Lexikon' gesprochen wird, so ist damit immer die eingeschränkte Bedeutung 'Wörterbuch' gemeint. Ausgeschlossen wird dadurch die Bedeutung 'Enzyklopädie'. (Vgl. im Englischen: dictionary vs. lexicon.)

Definitionen

Lexikon (nach [Heß et al. 83] S.6)
Lexikon ist die Menge der sprachlichen Einheiten, die im aktuellen Verlauf menschlicher Rede bzw. Kommunikation vorkommen. Diese Einheiten werden in der wissenschaftlichen Betrachtung durch unterschiedliche Methoden festgestellt, aus ihrem jeweiligen kontextuellen Zusammenhang herausgelöst und schließlich systematisch in einem Wörterbuch dargestellt.
Lexikon (nach [Bußmann 83])
  1. Zusammenstellung der Wörter einer Sprache (bzw. eines regionalen, soziolektalen oder fachspezifischen Ausschnitts) in alphabetischer oder begrifflicher Ordnung zum Zwecke des Nachschlagens.
  2. Im allgemeinsten Sinn: Beschreibungsebene, die den Wortschatz einer Sprache kodifiziert ...
  3. In der generativen Transformationsgrammatik: Teil der Basiskomponente der Grammatik in Form einer ungeordneten Liste aller lexikalischer Formative. ...
Lexikographie (nach Bußmann 83)

Vorgang, Ergebnis und Methode der Anfertigung von Wörterbüchern.

Phasen bei der Erstellung eines Wörterbuchs (nach 'Metzler Lexikon Sprache' Stuttgart, 1993; unter Lexikographie)

Lexikologie (nach Bußmann 83)

Teilbereich der Sprachwiss. bzw. der Semantik, der sich mit der Erforschung und Beschreibung des Wortschatzes einer Sprache beschäftigt ... Stellt die theoretischen Grundlagen und Materialien für die Lexikographie bereit.

Makrostruktur (nach Heß et al. 83, S.13)

Unter Makrostruktur eines Lexikons ist die Gesamtheit des Systemgefüges zu verstehen, in welchem die einzelnen Lexeme Systemelemente darstellen, zwischen denen Beziehungen (Relationen) bestehen. ...

Es handelt sich hierbei nicht nur um ... semantische Relationen, sondern um Beziehungen jedweder Art, die zwischen Elementen eines Sprachsystems, hier den lexikalischen Einheiten, bestehen können, also auch um morphologische Beziehungen zwischen Wortelementen und um syntaktische Beziehungen oder um Beziehungen auf graphematischer Ebene.

Mikrostruktur
Die lexikalische Mikrostruktur besteht demgegenüber nicht in einem System ... sondern in einem Vektor, d.h. in einer gerichteten Menge von Kategorien. Jedem Sprachelement, jeder lexikalischen Einheit, ist eine solche Menge, ein Vektor, zugeordnet.

Wörterbuch-Typologie

Semasiologie

Teildisziplin bzw. Forschungsrichtung der Semantik, die sich mit der Bedeutung einzelner sprachlicher Ausdrücke, den Bedeutungsbeziehungen zwischen sprachlichen Ausdrücken (Wortfeld), sowie Problemen des Bedeutungswandels beschäftigt.

semasiologische Wörterbuchordnung:

regeln, Regel, Regelung, regieren, Regierung, ...

Onomasiologie

Teildisziplin bzw. Forschungsrichtung der Semantik, die sich - ausgehend von Sachverhalten und Begriffen der realen Welt - mit der Erforschung der auf sie referierenden sprachlichen Ausdrücke (= Wörter) beschäftigt. Dabei werden Aspekte der geographischen Verteilung bestimmter Bezeichnungen (Wortatlas) ebenso berücksichtigt wie Fragen des Bezeichnungswandels.

onomasiologische Wörterbuchordnung:

Regel, Gesetz, Heuristik, ...

Probleme der Grössenbestimmung

Grösse ist eines der wichtigsten Verkaufsargumente. Die Angaben sind deshalb mit Vorsicht zu interpretieren.

Traditionelles Zählsystem: Jedes Lemma (engl. head word ) ist ein Eintrag.

Amerikanisches Zählsystem: Jedes Wort und jede Phrase, die explizit oder implizit definiert ist und identifiziert werden kann (z.B. durch Fettdruck), ist ein Eintrag. Genauer:

  1. Das Lemma ist ein Eintrag.
  2. Jede weitere Wortart zu dem Lemma ist ein Eintrag.
  3. Flektierte Formen, die aufgeführt werden, gelten als Eintrag.
  4. Hinzugefügte Derivationen (engl. run-ons ) gelten als Eintrag.
  5. Hervorgehobene Redewendungen innerhalb eines Artikels gelten als Eintrag.

Beispiel (leicht gekürzt) zählt als 5 Einträge:

parachute
n. An apparatus of lightweight fabric that when unfurled assumes the shape of a large umbrella and acts to retard the speed of a body moving or descending through air. --v. chuted, chuting v.t. 1. to land (troops, materiel, etc.) by means of parachutes. --v.i. 2. to descend by parachute -- parachutist.

In amerikanischen College Dictionaries sind weniger als die Hälfte aller Einträge Lemmas.

Probleme der alphabetischen Ordnung

Wörterbücher enthalten eine buchstaben-orientierte alphabetische Ordnung. Beispiel:

power
powerful
power of attorney

Vorteil: Der Benutzer muss nicht wissen, ob ein Kompositum zusammengeschrieben wird.

Besondere Probleme: Verbgefüge

have one's eye on
jmd. Bescheid geben

Unterschied Thesaurus - Lexikon

(nach Heß et al. 83; S.20)

  1. In der Regel enthalten Thesauruseinträge in der Mikrostruktur keine syntaktischen und morphologischen Angaben, sondern nur einige semantische Relationen.
  2. In der Makrostruktur werden die Elemente von Thesauri nach semantischen Kriterien geordnet; es handelt sich also um onomasiologische Lexika, während Lexika im allgemeinen alphabetisch geordnet sind. Für die Benutzung wird ein Thesaurus jedoch durch ein Register (semasiologisch) erschlossen.
  3. Ein Thesaurus enthält meistens Substantive (evtl. einige Adjektive). Verben und Funktionswörter sind selten.
  4. Thesauri informieren über die Relation eines Deskriptors zu einem anderen, nicht über dessen Bedeutung.

Wörterbucheintrag

(nach [Schaeder ??] S. 31)

  1. Repräsentation
    1. Lemma
    2. Aussprache, Betonung, Silbentrennung
    3. Wortformenvorkommen
    4. Orthographische Variante(n)
    5. Kennzeichnung als Kurzwort, Abkürzung etc.
    6. Verweise auf Zentralartikel
  2. Explikation
    1. Erzählerische und/oder ikonische Darstellung
    2. Grammatische Angaben
    3. Paradigmatische Angaben
    4. Syntagmatische Angaben
    5. Phraseologischer Gebrauch
    6. Angaben über stilistische, areale, fachsprachliche, sondersprachliche Zuordnungen
    7. Angaben zur Wortbildung
    8. Angaben zur Wortgeschichte (Bezeichnungs-, Bedeutungswandel, fremdsprachlicher Einfluß, Etymologie)
  3. Demonstration
    1. Ausgewählte Belege des Gebrauchs
    2. Statistische Angaben
    3. Bibliographische Nach- bzw. Hinweise

Traditioneller Lexikoneintrag:

(Wortlaut + Beschreibung) = (Identifikationsteil + Informationsteil)

Lexikoneintrag in einem Computerlexikon:

n-Tupel mit gleichberechtigten Informationskomplexen

Lexikon und Computer

A: Lexikon für den menschlichen Benutzer (Collins COBUILD, Oxford English Dictionary, Webster's Collegiate Dictionary, Duden-Rechtschreibung, Duden Deutsches Universalwörterbuch A-Z)

B: Lexikon für die maschinelle Verarbeitung (CELEX, Gertwol?, Morphix?)

Probleme:

Erstellung von Lexika für die maschinelle Verarbeitung

Fragestellungen: (nach G. Thurmaier; Vortrag in Koblenz, 1994)

  1. Allgemeine vs. spezialisierte Lexika
  2. Monolinguale vs. multilinguale Lexika
  3. Monodirektionalität vs. Bidirektionalität
  4. Vollständigkeit vs. Partialität
  5. Allgemeinsprachl. vs. fachsprachl. Lexika

Anforderungen an eine lexikalische Datenbank

(aus [Bläser et al. 92]: A reusable lexical database tool for machine translation. IBM, IWBS-Report 231.) Kontext: Lexikalische Daten für den Personal-Translator.

Einträge in der LOLA-Datenbank (für maschinelle Übersetzung)

LOLA ist implementiert als relationale Datenbank.

Vorteile: Es ist stabil und umfasst integrierte Konsistenz- und Integritätsüberprüfungen.

LOLA enthält eine Benutzerschnittstelle incl. Zugriff auf andere on-line Wörterbücher.

Modelle für Lexikonstrukturen

(nach [Ide et al. 93]: Outline of a model for lexical databases. In: Information Processing & Management. 29(2).)

  1. Textmodelle
  2. Relationale Modelle (keine Schachtelung der Attribute)

    Probleme:

  3. Relationale Modelle ohne Normalisierung (mit Schachtelung der Attribute)

    Probleme:


Abgrenzung zwischen Lexikographie und Terminographie

aus:

@techreport{Bess92,
title  = {Terminologiekurs},
author = {Bruno de Bess\'e},
year =   1992,
institution = {\'Ecole de Traduction et d'Interpr\'etation},
address = {Gen\`eve},
}
Terminologie
bezeichnet die Gesamtheit der Fachwörter, die einer Kunst, einer Technik, einer Wissenschaft, einer Disziplin, einem Sachgebiet, einer Tätigkeit oder einer Praxis, einer Fabrik, einem Unternehmen, einer Schule, einem Wissenschaftler oder einer Gruppe von Wisenschaftlern, einem Autor eigen ist.

Bsp.: Terminologie der Informatik, der Landwirtschaftsmaschinen, der Chemie ...

Gegenstand

LexikographieTerminographie
Beschreibung der GemeinspracheBeschreibung von Fachsprachen
Tätigkeit im allgemeinen einsprachigTätigkeit im allgemeinen mehrsprachig
Erarbeitung von WortsammlungenErarbeitung von Fachwortsammlungen

Ziele

LexikographieTerminographie
Zielpublikum: alle SprechendenZielpublikum: Fachleute
Neigung zu einheitlichen "Produkten"Vielzahl der Produkte (was Darstellung und Methoden angeht)
Vorwiegend PapierprodukteViele EDV-Produkte

Vorgehen

LexikographieTerminographie
Semasiologisches VorgehenOnomasiologisches Vorgehen
Feststellung des GebrauchsNormende Rolle
Diachronische und synchronische BeschreibungRein synchronische Beschreibung

Beschreibungsart

LexikographieTerminographie
Auszuwertender Korpus beliebig zusammengesetztAuszuwertender Korpus nach strengen Kriterien zusammengesetzt
Versuch einer Beschreibung der gesprochenen SpracheBeschreibung der geschriebenen Sprache
Häufigkeit des Vorkommens für die Auswahl der Wörter wichtigSuche nach seltenen Fachwörtern
Vorsicht gegenüber NeologismenBesonderes Interesse für Neologismen
Vollständige Beschreibung des Wortschatzes unmöglichVollständige Beschreibung des Fachwortschatzes möglich

Art der Einträge

LexikographieTerminographie
Einfache EinträgeMehrworteinträge
Vorhandensein aller grammatischen KategorienÜberwiegend nominale Formen
PolysemiePolyseme Fachwörter werden als Homonyme behandelt

Gegebene Information

LexikographieTerminographie
Phonetische InformationenKeine Phonetik
Grammatische InformationenWenig grammatische Informationen
Etymologische InformationenKeine etymologische Informationen
Historische InformationenKeine historische Informationen

Beschreibungsmethode

LexikographieTerminographie
Sprachliche DefinitionDefinition durch Beschreibung des Gegenstands und des Begriffs
Beispiele aus der LiteraturDefinitorischer und enzyklopädischer Kontext
Querverweise auf Synonyme, AntonymeInformationsbringende Querverweise mit Assoziationen zu Gegenständen oder Begriffen, weniger zu Fachwörtern

Norm

LexikographieTerminographie
Gesellschaftliche und kulturelle NormNormung der Gegenstände, des Begriffs und der Fachwörter
Schwierige Orientierung des GebrauchsFreie Benennung
Gewicht des SprachsystemsGewicht der Normung

Autoren

LexikographieTerminographie
LinguistenFachleute (Übersetzer, Sachgebietsexperten, usw.); multidisziplinäre Arbeit

Gemeinsamkeiten


Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch