Lexikologie, Lexikographie und Lexikonstrukturen
Morphologieanalyse und Lexikonaufbau (10. Vorlesung)
Dozent: Martin Volk
Übersicht
- Wie kann die Wörterbucherstellung von der Computerlinguistik profitieren?
- Wie kann die Computerlinguistik (NLP) von der Information in Wörterbüchern profitieren?
Anmerk.: Wenn im folgenden von 'Lexikon' gesprochen wird, so ist damit immer die eingeschränkte Bedeutung 'Wörterbuch' gemeint. Ausgeschlossen wird dadurch die Bedeutung 'Enzyklopädie'. (Vgl. im Englischen: dictionary vs. lexicon.)
- Lexikon (nach [Heß et al. 83] S.6)
-
Lexikon ist die Menge der sprachlichen Einheiten, die im aktuellen Verlauf
menschlicher Rede bzw. Kommunikation vorkommen. Diese Einheiten werden in der
wissenschaftlichen Betrachtung durch unterschiedliche Methoden festgestellt,
aus ihrem jeweiligen kontextuellen Zusammenhang herausgelöst und
schließlich systematisch in einem Wörterbuch dargestellt.
- Lexikon (nach [Bußmann 83])
-
- Zusammenstellung der Wörter einer Sprache (bzw. eines regionalen,
soziolektalen oder fachspezifischen Ausschnitts) in alphabetischer oder
begrifflicher Ordnung zum Zwecke des Nachschlagens.
- Im allgemeinsten Sinn: Beschreibungsebene, die den Wortschatz einer Sprache
kodifiziert ...
- In der generativen Transformationsgrammatik: Teil der Basiskomponente der
Grammatik in Form einer ungeordneten Liste aller lexikalischer Formative. ...
- Lexikographie (nach Bußmann 83)
-
Vorgang, Ergebnis und Methode der Anfertigung von Wörterbüchern.
Phasen bei der Erstellung eines Wörterbuchs
(nach 'Metzler Lexikon Sprache' Stuttgart, 1993; unter Lexikographie)
- Planungsphase: Festlegung von Inhalt, Typ, Format und Stichwortanzahl;
Stichwortliste, Mitarbeiter, Zeit- und Kostenplan; Style-Manual (Anleitung zur
Erarbeitung der Wörterbuchartikel)
- Erarbeitungsphase: Erarbeitung und Korrektur der Artikel
- Produktion
-
- Lexikologie (nach Bußmann 83)
-
Teilbereich der Sprachwiss. bzw. der Semantik, der sich mit der Erforschung und
Beschreibung des Wortschatzes einer Sprache beschäftigt ... Stellt die
theoretischen Grundlagen und Materialien für die Lexikographie bereit.
- Makrostruktur (nach Heß et al. 83, S.13)
Unter Makrostruktur eines Lexikons ist die Gesamtheit des Systemgefüges zu
verstehen, in welchem die einzelnen Lexeme Systemelemente darstellen, zwischen
denen Beziehungen (Relationen) bestehen. ...
Es handelt sich hierbei nicht nur um ... semantische Relationen, sondern um
Beziehungen jedweder Art, die zwischen Elementen eines Sprachsystems, hier den
lexikalischen Einheiten, bestehen können, also auch um morphologische
Beziehungen zwischen Wortelementen und um syntaktische Beziehungen oder um
Beziehungen auf graphematischer Ebene.
- Mikrostruktur
-
Die lexikalische Mikrostruktur besteht demgegenüber nicht in einem System
... sondern in einem Vektor, d.h. in einer gerichteten Menge von Kategorien.
Jedem Sprachelement, jeder lexikalischen Einheit, ist eine solche Menge, ein
Vektor, zugeordnet.
- Anzahl Sprachen
- einsprachig, zweisprachig, mehrsprachig
- unidirektional, bidirektional
Wörterbücher sind adressatenspezifisch. Ein Wörterbuch
Französisch-Deutsch für deutsche Muttersprachler
unterscheidet sich von einem für französiche
Muttersprachler.
- Art der Finanzierung
- akademische Wörterbücher (Middle English
Dictionary)
- kommerzielle Wörterbücher (Webster)
- Alter der Benutzer (Benutzungssituation)
Es gibt Schüler-Wörterbücher für verschiedene Altersklassen. Sie unterscheiden sich im Umfang und in der
Aufmachung (Bebilderung). Problem: Wie ermittelt man den Wortschatz der jeweiligen Altersklasse? Bsp.: wissenschaftl. Lexikon, Schülerlexikon, allgemeines
Lexikon, Sprachlernlexikon, Konversationslexikon ('Urlaubslexikon')
- Grösse
Maximalschätzungen für den englischen Wortschatz
belaufen sich auf 4 Mio Wörter (700.000 in den Merriam-Webster Dateien, 1 Mio wissenschaftl. Wörter, dazu
Dialektwörter, Slang, Neologismen, Handels- und
Ortsnamen). Probleme: Es gibt Millionen chemischer
Substanzen mit je eigenen Namen.
- English unabridged dictionary: 400.000 - 600.000
Wörter (allgemeiner Gebrauch)
- College dictionary: 130.000 - 160.000 Wörter
- Desk dictionary: 60.000 - 100.000 Wörter
- Pocket dictionary: 40.000 - 60.000 Wörter
- Bereich (Grundgesamtheit)
- Es gibt bereichsspezifische, fachsprachliche Wörterbücher vor allem für Jura, Medizin, Biologie, Elektronik und Architektur. Aber auch: wirtschaftswissenschaftliches Lexikon, regionalsprachliches Lexikon (z.B. Duden: Wie sagt man in der Schweiz?), Fremdwörterbuch
- Die Qualität dieser Wörterbücher ist sehr
unterschiedlich.
- Der Anteil technischen Vokabulars in einem allgemeinen
Wörterbuch nimmt stark zu (ca. 40% technisch-wissenschaftl. Wortschatz in einem College Dictionary).
- Sprachaspekte (inhaltliche Tiefe): Etymologie, Aussprache, Orthographie, Gebrauch, Synonyme, Slang, Dialekt, Belege
- Zeitausschnitt: synchron vs. diachron (Problem: die Erstellung eines Wörterbuchs dauert of mehrere Jahrzehnte.) Bsp.: etymologisches Wörterbuch, Wörterbuch der Jugendsprache, 'Kleines Lexikon untergegangener Wörter'
- Linguistischer Ansatz: präskriptiv (z.B. Gebrauchsempfehlungen) vs. deskriptiv
- Zugriffsarten
- Wichtigstes Ordnungskriterium: alphabetische Ordnung
- inhaltliche Ordnung (plus alphabetischer Index); z.B. Duden Bildwörterbuch
- Sortierung nach Wortlänge; z.B. Kreuzworträtsellexikon
- Häufigkeit
- Rückläufig alphabetisch
- Alter (Jahr des ersten Auftretens)
- Zeichenaufbau (Anzahl der Radikale) im Chinesischen
- Makrostruktur: semasiologische (geordnet nach Wortfeldern) vs. onomasiologische (geordnet
nach Sach- und Begriffsgruppen) Wörterbücher
Semasiologie
Teildisziplin bzw. Forschungsrichtung der Semantik, die sich mit der Bedeutung
einzelner sprachlicher Ausdrücke, den Bedeutungsbeziehungen zwischen
sprachlichen Ausdrücken (Wortfeld), sowie Problemen des Bedeutungswandels
beschäftigt.
semasiologische Wörterbuchordnung:
regeln, Regel, Regelung, regieren, Regierung, ...
Onomasiologie
Teildisziplin bzw. Forschungsrichtung der Semantik, die sich - ausgehend von
Sachverhalten und Begriffen der realen Welt - mit der Erforschung der auf sie
referierenden sprachlichen Ausdrücke (= Wörter) beschäftigt.
Dabei werden Aspekte der geographischen Verteilung bestimmter Bezeichnungen
(Wortatlas) ebenso berücksichtigt wie Fragen des Bezeichnungswandels.
onomasiologische Wörterbuchordnung:
Regel, Gesetz, Heuristik, ...
Probleme der Grössenbestimmung
Grösse ist eines der wichtigsten Verkaufsargumente. Die
Angaben sind deshalb mit Vorsicht zu interpretieren.
Traditionelles Zählsystem: Jedes Lemma (engl. head word ) ist ein Eintrag.
Amerikanisches Zählsystem: Jedes Wort und jede Phrase, die explizit oder implizit definiert ist und identifiziert werden kann (z.B. durch Fettdruck), ist ein Eintrag. Genauer:
- Das Lemma ist ein Eintrag.
- Jede weitere Wortart zu dem Lemma ist ein Eintrag.
- Flektierte Formen, die aufgeführt werden, gelten als Eintrag.
- Hinzugefügte Derivationen (engl. run-ons ) gelten als Eintrag.
- Hervorgehobene Redewendungen innerhalb eines Artikels gelten als Eintrag.
Beispiel (leicht gekürzt) zählt als 5 Einträge:
- parachute
- n. An apparatus of lightweight fabric that when unfurled assumes the shape of a large umbrella and acts to retard the speed of a body moving or descending through air. --v. chuted, chuting v.t. 1. to land (troops, materiel, etc.) by means of parachutes. --v.i. 2. to descend by parachute -- parachutist.
In amerikanischen College Dictionaries sind weniger als die Hälfte aller Einträge Lemmas.
Probleme der alphabetischen Ordnung
Wörterbücher enthalten eine buchstaben-orientierte alphabetische Ordnung. Beispiel:
power
powerful
power of attorney
Vorteil: Der Benutzer muss nicht wissen, ob ein Kompositum zusammengeschrieben wird.
Besondere Probleme: Verbgefüge
have one's eye on
jmd. Bescheid geben
Unterschied Thesaurus - Lexikon
(nach Heß et al. 83; S.20)
- In der Regel enthalten Thesauruseinträge in der Mikrostruktur keine
syntaktischen und morphologischen Angaben, sondern nur einige semantische
Relationen.
- In der Makrostruktur werden die Elemente von Thesauri nach semantischen
Kriterien geordnet; es handelt sich also um onomasiologische Lexika,
während Lexika im allgemeinen alphabetisch geordnet sind. Für die
Benutzung wird ein Thesaurus jedoch durch ein Register (semasiologisch)
erschlossen.
- Ein Thesaurus enthält meistens Substantive (evtl. einige Adjektive).
Verben und Funktionswörter sind selten.
- Thesauri informieren über die Relation eines Deskriptors zu einem
anderen, nicht über dessen Bedeutung.
(nach [Schaeder ??] S. 31)
- Repräsentation
- Lemma
- Aussprache, Betonung, Silbentrennung
- Wortformenvorkommen
- Orthographische Variante(n)
- Kennzeichnung als Kurzwort, Abkürzung etc.
- Verweise auf Zentralartikel
- Explikation
- Erzählerische und/oder ikonische Darstellung
- Grammatische Angaben
- Paradigmatische Angaben
- Syntagmatische Angaben
- Phraseologischer Gebrauch
- Angaben über stilistische, areale, fachsprachliche, sondersprachliche
Zuordnungen
- Angaben zur Wortbildung
- Angaben zur Wortgeschichte (Bezeichnungs-, Bedeutungswandel,
fremdsprachlicher Einfluß, Etymologie)
- Demonstration
- Ausgewählte Belege des Gebrauchs
- Statistische Angaben
- Bibliographische Nach- bzw. Hinweise
Traditioneller Lexikoneintrag:
(Wortlaut + Beschreibung) =
(Identifikationsteil + Informationsteil)
Lexikoneintrag in einem Computerlexikon:
n-Tupel mit gleichberechtigten Informationskomplexen
Lexikon und Computer
A: Lexikon für den menschlichen Benutzer (Collins COBUILD, Oxford English Dictionary, Webster's Collegiate Dictionary, Duden-Rechtschreibung, Duden Deutsches Universalwörterbuch A-Z)
B: Lexikon für die maschinelle Verarbeitung (CELEX, Gertwol?, Morphix?)
Probleme:
- Wie erstellt man A? Was sind die Inhalte?
- Wie kommt man von A zu B?
Fragestellungen: (nach G. Thurmaier; Vortrag in Koblenz, 1994)
- Allgemeine vs. spezialisierte Lexika
- Monolinguale vs. multilinguale Lexika
- Monodirektionalität vs. Bidirektionalität
- Vollständigkeit vs. Partialität
- Allgemeinsprachl. vs. fachsprachl. Lexika
(aus [Bläser et al. 92]: A reusable lexical database tool
for machine translation. IBM, IWBS-Report 231.) Kontext: Lexikalische Daten für den Personal-Translator.
- Angemessene Ausdrucksstärke des Repräsentationsformalismus
- klare Methodologie für die Beschreibung der lexikalischen
Information
- Orientierung an lexikographischen Arbeitsabläufen
- Konsistenz- und Integritätsüberprüfung bei den
lexikalischen Daten
- Unabhängigkeit der lexikalischen Daten vom
Repräsentationsschema
- Wiederverwendbarkeit der lexikalischen Daten (z.B. Daten für
Deutsch-Englisch wiederverwendbar für Deutsch-Spanisch und
Englisch-Spanisch)
Einträge in der LOLA-Datenbank (für maschinelle Übersetzung)
- Wortart
- Bedeutung
- morphologische Eigenschaften
- Kongruenzmerkmale
- Valenzinformation (optionale und obligatorische Komplemente)
- semantische Kompatibilitätsbedingungen
- Mehrwort-Lexeme
- inhaltlicher Bereich
- Übersetzung
- lexikalische Transformationen (?)
LOLA ist implementiert als relationale Datenbank.
Vorteile: Es ist stabil und umfasst integrierte Konsistenz- und Integritätsüberprüfungen.
LOLA enthält eine Benutzerschnittstelle incl. Zugriff auf andere on-line
Wörterbücher.
(nach [Ide et al. 93]: Outline of a model for lexical databases. In: Information Processing & Management. 29(2).)
- Textmodelle
- Typographische Formatierung: die Marken enthalten Verarbeitungskommandos
- Beschreibende Formatierung: die Marken enthalten Inhaltsinformation
- Grammatische Formatierung: die Marken enthalten Inhaltsinformation; ihre
Struktur wird durch eine Grammatik festgelegt
- Relationale Modelle (keine Schachtelung der Attribute)
Probleme:
- Fragmentierung der Daten (Wörterbucheinträge sind sehr
unterschiedlich)
- die 'natürliche' hierarchische Struktur eines Eintrags ist nicht
möglich
- Relationale Modelle ohne Normalisierung (mit Schachtelung der Attribute)
Probleme:
- rekursive Schachtelung nicht möglich
- Ausnahmen von der normalen Lexikonstruktur müssen auch hier gesondert
behandelt werden.
aus:
@techreport{Bess92,
title = {Terminologiekurs},
author = {Bruno de Bess\'e},
year = 1992,
institution = {\'Ecole de Traduction et d'Interpr\'etation},
address = {Gen\`eve},
}
- Terminologie
- bezeichnet die Gesamtheit der Fachwörter, die einer Kunst, einer Technik, einer Wissenschaft, einer Disziplin, einem Sachgebiet, einer Tätigkeit oder einer Praxis, einer Fabrik, einem Unternehmen, einer Schule, einem Wissenschaftler oder einer Gruppe von Wisenschaftlern, einem Autor eigen ist.
Bsp.: Terminologie der Informatik, der Landwirtschaftsmaschinen, der Chemie ...
Gegenstand
Lexikographie | Terminographie |
Beschreibung der Gemeinsprache | Beschreibung von Fachsprachen |
Tätigkeit im allgemeinen einsprachig | Tätigkeit im allgemeinen mehrsprachig |
Erarbeitung von Wortsammlungen | Erarbeitung von Fachwortsammlungen |
Ziele
Lexikographie | Terminographie |
Zielpublikum: alle Sprechenden | Zielpublikum: Fachleute |
Neigung zu einheitlichen "Produkten" | Vielzahl der Produkte (was Darstellung und Methoden angeht) |
Vorwiegend Papierprodukte | Viele EDV-Produkte |
Vorgehen
Lexikographie | Terminographie |
Semasiologisches Vorgehen | Onomasiologisches Vorgehen |
Feststellung des Gebrauchs | Normende Rolle |
Diachronische und synchronische Beschreibung | Rein synchronische Beschreibung |
Beschreibungsart
Lexikographie | Terminographie |
Auszuwertender Korpus beliebig zusammengesetzt | Auszuwertender Korpus nach strengen Kriterien zusammengesetzt |
Versuch einer Beschreibung der gesprochenen Sprache | Beschreibung der geschriebenen Sprache |
Häufigkeit des Vorkommens für die Auswahl der Wörter wichtig | Suche nach seltenen Fachwörtern |
Vorsicht gegenüber Neologismen | Besonderes Interesse für Neologismen |
Vollständige Beschreibung des Wortschatzes unmöglich | Vollständige Beschreibung des Fachwortschatzes möglich |
Art der Einträge
Lexikographie | Terminographie |
Einfache Einträge | Mehrworteinträge |
Vorhandensein aller grammatischen Kategorien | Überwiegend nominale Formen |
Polysemie | Polyseme Fachwörter werden als Homonyme behandelt |
Gegebene Information
Lexikographie | Terminographie |
Phonetische Informationen | Keine Phonetik |
Grammatische Informationen | Wenig grammatische Informationen |
Etymologische Informationen | Keine etymologische Informationen |
Historische Informationen | Keine historische Informationen |
Beschreibungsmethode
Lexikographie | Terminographie |
Sprachliche Definition | Definition durch Beschreibung des Gegenstands und des Begriffs |
Beispiele aus der Literatur | Definitorischer und enzyklopädischer Kontext |
Querverweise auf Synonyme, Antonyme | Informationsbringende Querverweise mit Assoziationen zu Gegenständen oder Begriffen, weniger zu Fachwörtern |
Norm
Lexikographie | Terminographie |
Gesellschaftliche und kulturelle Norm | Normung der Gegenstände, des Begriffs und der Fachwörter |
Schwierige Orientierung des Gebrauchs | Freie Benennung |
Gewicht des Sprachsystems | Gewicht der Normung |
Autoren
Lexikographie | Terminographie |
Linguisten | Fachleute (Übersetzer, Sachgebietsexperten, usw.); multidisziplinäre Arbeit |
Gemeinsamkeiten
- Alphabetische Ordnung
- Beschriebene Elemente gehören dem Sprachsystem an (Wörter oder Fachwörter)
- Ähnlichkeit in der Methodologie
Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch