Morphologieanalyse und Lexikonaufbau (12. Vorlesung)
Dozent: Gerold SchneiderCELEX:
TEI & SGML:
nach Lorenz & Schreiber 1998, Seminar Uni Erlangen
CELEX (http://www.kun.nl/celex) ist eine Lexikon- und Wortformdatenbank, die am Max-Planck-Institut für Psycholinguistik in Nijmegen (NL) erstellt wurde. CELEX enthält lexikalische Information für Niederländisch, Englisch und Deutsch.
Lemmata
Wortformen
Niederländisch
124136
381292
Englisch
52446
160594
Deutsch
51728
365530
Im Original ist CELEX als Datenbanksystem konzipiert, so daß auf die gespeicherten Daten bequem und schnell zugegriffen werden kann. CELEX ist jedoch auch auf CD-ROM erhältlich, wobei der Datenbankabzug auf mehrere Dateien verteilt wurde, so daß der Zugriff erschwert wurde. Der CD-ROM-Abzug für das Englische und das Deutsche ist in der CLUE unter /projects/lexika/Celex/ verfügbar.
Die in CELEX kodierte Information ist für alle drei Sprachen im Prinzip gleich strukturiert, was eine parallele Verarbeitung erleichtert. In der folgenden Auflistung sind Beispiele aus den sechs Unterbereichen der in CELEX kodierten Information dargestellt.
Am Beispiel von Teilen des deutschen CELEX soll nun dessen Form und Inhalt exemplarisch dargestellt werden.
Die Lemmainformation ist auf sechs Dateien verteilt, die den oben genannten sechs Teilbereichen entsprechen. Jede Datei enthält dabei für alle Lemmata die entsprechende Teilinformation in einem tabellarischen Format.
Jedes Lemma besteht aus einer bestimmten Anzahl von Feldern, die durch Backslashes getrennt sind. Jedes Feld hat dabei eine feste Bedeutung. Die Einträge müssen jedoch nicht immer dieselbe Anzahl von Feldern haben; es existieren Multiplikatorenfelder, die angeben, wie viele verschiedene Lesarten folgen. Für jede der Lesarten werden die nachfolgenden Felder wiederholt.
Der Datenbankcharakter von CELEX ist also nicht zu übersehen; für den menschlichen Betrachter ist dieses Format jedoch kaum geeignet, da es schlecht lesbar und sehr unübersichtlich ist. Eine Extraktion aus dem Lexikon wird dadurch erschwert, daß sie auf verschiedene Dateien verteilt ist.
16436\hausintern\1\'hBs-In-tErn\[haus][In][tErn]\'hBs-In-tErn\[haus][In][tErn]\[CVVC][VC][CVCC]\[CVVC][VC][CVCC]\hauz#IntErn\hauz#IntErn 16437\haeuslich\35\'hXs-lIx\[hOys][lIx]\'hXs-lIx\[hOys][lIx]\[CVVC][CVC]\[CVVC][CVC]\hauz#lIx\hauz#lIx 16438\Haeuslichkeit\3\'hXs-lIx-kWt\[hOys][lIx][kait]\'hXs-lIx-kWt\[hOys][lIx][kait]\[CVVC][CVC][CVVC]\[CVVC][CVC][CVVC]\hauz#lIx#kait\hauz#lIx#kait 16439\Hausmann\2\'hBs-m&n;\[haus][man]\'hBs-m&n;\[haus][man]\[CVVC][CVC]\[CVVC][CVC]\\ 16440\Hausmannskost\3\'hBs-m&ns-kOst;\[haus][mans][kOst]\'hBs-m&ns-kOst;\[haus][mans][kOst]\[CVVC][CVCC][CVCC]\[CVVC][CVCC][CVCC]\\ 16441\Hausmeier\22\'hBs-mW-@r\[haus][mai][@r]\'hBs-mW-@r\[haus][mai][@r]\[CVVC][CVV][VC]\[CVVC][CVV][VC]\hauz#mai@r\hauz#mai@r 16442\Hausmeister\66\'hBs-mWs-t@r\[haus][mais][t@r]\'hBs-mWs-t@r\[haus][mais][t@r]\[CVVC][CVVC][CVC]\[CVVC][CVVC][CVC]\hauz#maist@r\hauz#maist@r 16443\Hausmittel\4\'hBs-mI-t@l\[haus][mI[t]@l]\'hBs-mI-t@l\[haus][mI[t]@l]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#mIt@l\hauz#mIt@l 16444\Hausnummer\15\'hBs-nU-m@r\[haus][nU[m]@r]\'hBs-nU-m@r\[haus][nU[m]@r]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#nUm@r\hauz#nUm@r 16445\Hausordnung\8\'hBs-Or-dnUN\[haus][Or][dnUN]\'hBs-Or-dnUN\[haus][Or][dnUN]\[CVVC][VC][CCVC]\[CVVC][VC][CCVC]\hauz#Ordn+UN\hauz#Ordn+UN
7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y 8\Aasgeier\2\C\1\Y\Y\Y\Aas+Geier\NN\N\N\N\((Aas)[N],(Geier)[N])[N]\N\N\N\N\S1/P2\N 12\abaendern\16\C\1\Y\Y\Y\ab+aender\xV\N\N\N\((ab)[V|.V],(aender)[V])[V]\N\N\N\Y\r3\N 30\abbeissen\8\C\1\Y\Y\Y\ab+beiss\PV\N\N\N\((ab)[P],(beiss)[V])[V]\N\N\N\Y\i105\N 54\Abbraendler\0\C\1\Y\Y\Y\Abbrand+ler\Nx\N\N\Y\(((ab)[N|.N],((brenn)[V])[N])[N],(ler)[N|N.])[N]\Y\N\Y\N\S1/P2\N 64\Abbruch\66\Z\1\Y\Y\Y\abbrech\V\Y\N\N\(((ab)[V|.V],(brech)[V])[V])[N]\Y\N\N\N\S1/P1u\N 236\Abgeordnete\609\Z\1\Y\Y\Y\abgeordnete\F\N\N\N\((abgeordnete)[F])[N]\N\N\N\N\A\N 1329\Ahne\7\C\1\Y\Y\Y\Ahn+e\Nx\N\N\N\((Ahn)[N],(e)[N|N.])[N]\N\N\N\N\S3/P3\N
morphologisch komplex |
C |
Abendessen |
Konversion |
Z |
Abflug |
monomorphematisch |
M |
Abend |
Morphologie nicht relevant |
I |
Abakus |
lexikalisierte Flexion |
F |
anhaltend |
unbestimmt |
U |
Adamit |
A |
adjektivisch flektiertes Substantiv |
I |
flektiert, jedoch unklassifiziert |
U |
unflektiert |
i... |
irreguläres Verb |
r1 |
reguläres Verb |
r2 |
reguläres Verb mit auf Dental endendem Stamm |
r3 |
reguläres Verb mit auf -el endendem Stamm |
r4 |
reguläres Verb mit auf -er endendem Stamm |
r5 |
reguläres Verb mit auf Vokal endendem Stamm |
r6 |
reguläres Verb mit auf Sibilant endendem Stamm |
S... |
Singularflexion des Substantivs |
P... |
Pluralflexion des Substantivs |
Kode |
Bedeutung |
Beispiel |
---|---|---|
P |
nicht steigerbar |
übrig |
PC |
nur Komparativsteigerung |
ratsam |
PS |
nur Superlativsteigerung |
ureigen |
PCS |
voll steigerbar |
ulkig |
Kode |
Bedeutung |
Beispiel |
---|---|---|
1 |
Kardinalzahl |
acht |
2 |
Ordinalzahl |
achte |
3 |
Fraktion |
achtel |
4 |
klassifikatorisch |
achterlei |
5 |
multiplikativ |
achtfach |
Kode |
Bedeutung |
Beispiel |
---|---|---|
1 |
Personalpronomen |
du |
2 |
Demonstrativpronomen |
dieser |
3 |
Possessivpronomen |
dein |
4 |
Relativpronomen |
der |
5 |
Interrogativpronomen |
welcher |
6 |
Reflexivpronomen |
sich |
7 |
reziprokes Pronomen |
einander |
8 |
unbestimmt |
wenig |
Kode |
Bedeutung |
Beispiel |
---|---|---|
2 |
Genitiv |
wegen |
3 |
Dativ |
mit |
34 |
Dativ oder Akkusativ |
an |
4 |
Akkusativ |
durch |
Der Anfang des Quelltextes dieser Seite (kann man in den meisten Browsern anschauen, in den Englischen Netscape-Versionen mit dem Befehl "View: Page Source") ist:
<!DOCTYPE HTML PUBLIC "-//SQ//DTD HTML 2.0 HoTMetaL + extensions//EN"> <!--This file created 19.6.2000 16:18 Uhr by Claris Home Page version 2.0--> <HTML> <HEAD> <TITLE>Vorl.: Lexikonorganisation mit SGML</TITLE> <META NAME=GENERATOR CONTENT="Claris Home Page 2.0"> <X-SAS-WINDOW TOP=66 BOTTOM=870 LEFT=8 RIGHT=538> <X-SAS-REMOTESAVE SERVER="arvo.ifi.unizh.ch" USER="gschneid" DIR="~gschneid/HOMEPAGE/LexMorphVorl/" FILE="Lexikon12.SGML.html"> </HEAD> <BODY> <H1>Lexikonorganisation mit SGML und XML</H1> <P><B>Morphologieanalyse und Lexikonaufbau (12. Vorlesung)</B></P> <ADDRESS>Dozent: Gerold Schneider</ADDRESS> <H3>Übersicht</H3> <UL> <LI><A HREF="#Markup">Mark-up Sprachen: HTML, XML, SGML</A> <LI><A HREF="SGML.summary.html">Einführung in SGML</A> <LI><A HREF="#SGML-XML-Diff">Unterschiede zwischen SGML und XML</A>
und so weiter ....
Zusätzlich zum im Browser dargestellten Text enthält der Auszug SGML 'mark-up' tags in <eckigen Klammern>, z.B:
Die Bedeutung und die Anzahl der mark-up tags ist vordefiniert für HTML in SGML. SGML ist die Metasprache, die die Definition einer Mark-up-Sprache ermöglicht. Eine solche Definition steht in einer DTD (Document Type Description).
XML steht für "Extensible Markup Language". Der Erfinder von XML und eine wichtige Informationsquelle ist das W3C - das WWW-Consortium.
Hier steht eine gute Übersichtsseite über XML.
Als Einführung in XML empfehle ich "Introduction to XML" (lokale Kopie, Original).
Einige der (erst relativ wenigen) lexikalischen Datenbanken in SGML:
Die Text-Encoding Initiative (TEI) ist ein Kommittee, das die drei grossen Fachorganisationen ACL (Association for Computational Linguistics), ALLC (Association for Literary and Linguistic Computing) und AHC (Association for Computers in the Humanities) im Jahre 1987 gegründet haben. Ziel: Erarbeitung von Empfehlungen für ein Standard-Datenformat zum Textaustausch in den Geisteswissenschaften. Diese Guidelines liegen jetzt als Buch [Sperberg-McQueen und Burnard 94] vor und sind auch über das WWW (TEI-Guidelines) abrufbar.
<tei.2> <teiHeader> <fileDesc> <titleStmt> <title> The shortest TEI Document</title> <publicationStmt> <p> Published as part of TEI P2 </publicationStmt> <sourceDesc> <p> no source </sourceDesc> </fileDesc> </teiHeader> <text> <body> <p> Hello World! </p> </body> </text> </tei.2>
<p> für Paragraphe <emph> für Hervorhebungen <q> für Zitate <address> für Adressen <date> für Datumsangaben <abbr> für Abkürzungen <ptr> für Verweise <list> für Aufzählungen <l> für Zeilen (z.B. in Gedichten)
<tei.2> <teiHeader> ... </teiHeader> <text> <front> ... z.B. Vorwort eines Buches oder Gebrauchsanweisung für ein Lexikon </front> <body> <p> Hello World! </p> </body> <back> ... z.B. Anhänge </back> </text> </tei.2>
Die TEI hat auch spezielle Tags erarbeitet, die zur Markierung von Wörterbüchern dienen. Sie finden sich in [Sperberg-McQueen und Burnard 94] (Kapitel 12) und im WWW lokal unter 12: Print Dictionaries (130 KByte; ca. 55 Seiten) und im Original unter 12: Print Dictionaries.
====== AUSZUG aus diesem Kapitel: =======
<text> contains a single text of any kind, whether unitary or composite, for example a poem or drama, a collection of essays, a novel, a dictionary, or a corpus sample.
<front> contains any prefatory matter (headers, title page, prefaces, dedications, etc.) found before the start of a text proper.
<body> contains the whole body of a single unitary text, excluding any front or back matter.
<back> contains any appendixes, etc. following the main part of a text.
<div> contains a subdivision of the front, body, or back of a text.
<div0> contains the largest possible subdivision of the body of a text.
<div1> contains a first-level subdivision of the front, body, or back of a text (the largest, if <div0> is not used, the second largest if it is).
<entry> contains a reasonably well-structured dictionary entry.
<entryFree> contains a dictionary entry which does not necessarily conform to the constraints imposed by the <entry> element.
<superentry> groups successive entries for a set of homographs.
(...)
As noted above, dictionary entries, and subordinate levels within dictionary entries, may comprise several constituent parts, each providing a different type of information about the word treated. The top-level constituents of dictionary entries are:
Any of the hierarchical levels ( <entry>, <entryFree>, <hom>, <sense>) may contain any of these top-level constituents, since information about word form, particular grammatical information, special pronunciation, usage information, etc., may apply to an entire entry, or to only one homograph, or only to a particular sense. The examples below illustrate this point.
The following elements are used to encode these top-level constituents:
<form>
groups all the information on the
written and spoken forms of one headword.
<gramGrp>
groups morpho-syntactic
information about a lexical item, e.g. <pos>, <gen>,
<number>, <case>, or <itype> (inflectional
class).
<def>
contains definition text in a
dictionary entry.
<trans>
contains translation text and
related information (within an entry in a multilingual
dictionary).
<eg>
(in a dictionary) contains an example
text containing at least one occurrence of the word form, used in
the sense being described; examples may be quoted from (named)
authors or contrived.
<usg>
contains usage information in a
dictionary entry.
<xr>
contains a phrase, sentence, or icon
referring the reader to some other location in this or another
text.
<etym>
encloses the etymological
information in a dictionary entry.
<re>
contains a dictionary entry for a
lexical item related to the headword, such as a compound phrase or
derived form, embedded inside a larger entry.
<note>
contains a note or annotation.
In a simple entry with no internal hierarchy, all top-level constituents appear at the <entry> level.
(...)
To simplify the electronic presentation of this document on systems with limited character sets, many of the pronunciations are presented using the transliteration found in the electronic edition of the Oxford Advanced Learner's Dictionary. Also, the middle dot in quoted entries is rendered with a full stop, while within the sample transcriptions hyphenation and syllabification points are indicated with |, regardless of their rendition in the source text. `` com.peti.tor /k@m"petit@(r)/ n person who competes. [OALD] ''
<entry> <form> <orth>competitor</orth> <hyph>com|peti|tor</hyph> <pron>k@m"petit@(r)</pron> </form> <gramGrp> <pos>n</pos> </gramGrp> <def>person who competes.</def> </entry>
For the elements which appear within the <form> and <gramGrp> elements of this example, see section 12.3.1, Information on Written and Spoken Forms, and section 12.3.2, Grammatical Information.
As mentioned above, any top-level constituent can appear at any level when the hierarchical structure of the entry is more complex. The most obvious examples are <def> and <trans>, which appear at the <sense> level when several senses or translations exist: `` disproof (dIs"pru:f) n. 1. facts that disprove something. 2. the act of disproving. [CED] ''
<entry> <form> <orth>disproof</orth> <pron>dIs"pru:f</pron> </form> <gramGrp><pos>n></gramGrp> <sense n='1'><def>facts that disprove something.</def></sense> <sense n='2'><def>the act of disproving.</def></sense> </entry>
In the following example, <gramGrp> is used to distinguish two homographs: `` bray /breI/ n cry of an ass; sound of a trumpet. ▪ vt [VP2A] make a cry or sound of this kind. [OALD] ''
<entry> <form> <orth>bray</orth> <pron>breI</pron> </form> <hom> <gramGrp><pos>n</pos></gramGrp> <def>cry of an ass; sound of a trumpet.</def> </hom> <hom> <gramGrp> <pos>vt</pos> <subc>VP2A</subc> </gramGrp> <def>make a cry or sound of this kind.</def> </hom> </entry>
Information of the same kind can appear at different levels within the same entry; here, grammatical information occurs both at entry and homograph level. `` ca.reen /k@"ri:n/ vt,vi 1 [VP6A] turn (a ship) on one side for cleaning, repairing, etc. 2 [VP6A, 2A] (cause to) tilt, lean over to one side. [OALD] ''
<entry> <form> <orth>careen</orth> <hyph>ca|reen</hyph> <pron>k@"ri:n</pron> </form> <gramGrp> <pos>vt</pos> <pos>vi</pos> </gramGrp> <sense n='1'> <gramGrp><subc>VP6A</subc></gramGrp> <def>turn (a ship) on one side for cleaning, repairing, etc.</def> </sense> <sense n='2'> <gramGrp> <subc>VP6A</subc> <subc>VP2A</subc> </gramGrp> <def>(cause to) tilt, lean over to one side.</def> </sense> </entry>
Alone among the constituent groups, <form> can appear at the <superEntry> level as well as at the <entry>, <hom>, and <sense> levels: `` a.ban.don 1 /@"b&nd@n/ v [T1] 1 to leave completely and for ever; desert: The sailors abandoned the burning ship. 2 ... abandon 2 n [U] the state when one's feelings and actions are uncontrolled; freedom from control: The people were so excited that they jumped and shouted with abandon / in gay abandon. [LDOCE] ''
<superEntry> <form> <orth>abandon</orth> <hyph>a|ban|don</hyph> <pron>@"b&nd@n</pron> </form> <entry n='1'> <gramGrp> <pos>v</pos> <subc>T1</subc> </gramGrp> <sense n='1'><def>to leave completely and for ever ...</def> <!-- ... --> </sense> <sense n='2'> <!-- ... --> </sense> </entry> <entry n='2'> <gramGrp> <pos>n/pos> <subc>U</subc> </gramGrp> <def>the state when one's feelings and actions are uncontrolled; freedom from control</def> <!-- ... --> </entry> </superEntry>
====== Ende des AUSZUGES =======
Neben lexikalischen Datenbanken stehen dem Linguisten heute auch viele literarische und historische Texte und Korpora mit SGML oder XML Strukturierung und Annotierung zur Verfügung. Siehe z.B. das Oxford Text Archive (OTA) , dessen Texte in der Regel die TEI befolgen.