Beispiele für CL Lexika I:

CELEX; TEI & SGML

Morphologieanalyse und Lexikonaufbau (12. Vorlesung)

Dozent: Gerold Schneider

Übersicht

CELEX:

TEI & SGML:


CELEX-Überblick

nach Lorenz & Schreiber 1998, Seminar Uni Erlangen

Was ist CELEX?

CELEX (http://www.kun.nl/celex) ist eine Lexikon- und Wortformdatenbank, die am Max-Planck-Institut für Psycholinguistik in Nijmegen (NL) erstellt wurde. CELEX enthält lexikalische Information für Niederländisch, Englisch und Deutsch.

Lemmata

Wortformen

Niederländisch

124136

381292

Englisch

52446

160594

Deutsch

51728

365530

Im Original ist CELEX als Datenbanksystem konzipiert, so daß auf die gespeicherten Daten bequem und schnell zugegriffen werden kann. CELEX ist jedoch auch auf CD-ROM erhältlich, wobei der Datenbankabzug auf mehrere Dateien verteilt wurde, so daß der Zugriff erschwert wurde. Der CD-ROM-Abzug für das Englische und das Deutsche ist in der CLUE unter /projects/lexika/Celex/ verfügbar.

Was steht in CELEX?

Die in CELEX kodierte Information ist für alle drei Sprachen im Prinzip gleich strukturiert, was eine parallele Verarbeitung erleichtert. In der folgenden Auflistung sind Beispiele aus den sechs Unterbereichen der in CELEX kodierten Information dargestellt.

Form und Inhalt

Am Beispiel von Teilen des deutschen CELEX soll nun dessen Form und Inhalt exemplarisch dargestellt werden.

Form

Die Lemmainformation ist auf sechs Dateien verteilt, die den oben genannten sechs Teilbereichen entsprechen. Jede Datei enthält dabei für alle Lemmata die entsprechende Teilinformation in einem tabellarischen Format.

Jedes Lemma besteht aus einer bestimmten Anzahl von Feldern, die durch Backslashes getrennt sind. Jedes Feld hat dabei eine feste Bedeutung. Die Einträge müssen jedoch nicht immer dieselbe Anzahl von Feldern haben; es existieren Multiplikatorenfelder, die angeben, wie viele verschiedene Lesarten folgen. Für jede der Lesarten werden die nachfolgenden Felder wiederholt.

Der Datenbankcharakter von CELEX ist also nicht zu übersehen; für den menschlichen Betrachter ist dieses Format jedoch kaum geeignet, da es schlecht lesbar und sehr unübersichtlich ist. Eine Extraktion aus dem Lexikon wird dadurch erschwert, daß sie auf verschiedene Dateien verteilt ist.

16436\hausintern\1\'hBs-In-tErn\[haus][In][tErn]\'hBs-In-tErn\[haus][In][tErn]\[CVVC][VC][CVCC]\[CVVC][VC][CVCC]\hauz#IntErn\hauz#IntErn
16437\haeuslich\35\'hXs-lIx\[hOys][lIx]\'hXs-lIx\[hOys][lIx]\[CVVC][CVC]\[CVVC][CVC]\hauz#lIx\hauz#lIx
16438\Haeuslichkeit\3\'hXs-lIx-kWt\[hOys][lIx][kait]\'hXs-lIx-kWt\[hOys][lIx][kait]\[CVVC][CVC][CVVC]\[CVVC][CVC][CVVC]\hauz#lIx#kait\hauz#lIx#kait
16439\Hausmann\2\'hBs-m&n;\[haus][man]\'hBs-m&n;\[haus][man]\[CVVC][CVC]\[CVVC][CVC]\\
16440\Hausmannskost\3\'hBs-m&ns-kOst;\[haus][mans][kOst]\'hBs-m&ns-kOst;\[haus][mans][kOst]\[CVVC][CVCC][CVCC]\[CVVC][CVCC][CVCC]\\
16441\Hausmeier\22\'hBs-mW-@r\[haus][mai][@r]\'hBs-mW-@r\[haus][mai][@r]\[CVVC][CVV][VC]\[CVVC][CVV][VC]\hauz#mai@r\hauz#mai@r
16442\Hausmeister\66\'hBs-mWs-t@r\[haus][mais][t@r]\'hBs-mWs-t@r\[haus][mais][t@r]\[CVVC][CVVC][CVC]\[CVVC][CVVC][CVC]\hauz#maist@r\hauz#maist@r
16443\Hausmittel\4\'hBs-mI-t@l\[haus][mI[t]@l]\'hBs-mI-t@l\[haus][mI[t]@l]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#mIt@l\hauz#mIt@l
16444\Hausnummer\15\'hBs-nU-m@r\[haus][nU[m]@r]\'hBs-nU-m@r\[haus][nU[m]@r]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#nUm@r\hauz#nUm@r
16445\Hausordnung\8\'hBs-Or-dnUN\[haus][Or][dnUN]\'hBs-Or-dnUN\[haus][Or][dnUN]\[CVVC][VC][CCVC]\[CVVC][VC][CCVC]\hauz#Ordn+UN\hauz#Ordn+UN
    

Inhalt

Beispiel: Morphologie
7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y
8\Aasgeier\2\C\1\Y\Y\Y\Aas+Geier\NN\N\N\N\((Aas)[N],(Geier)[N])[N]\N\N\N\N\S1/P2\N
12\abaendern\16\C\1\Y\Y\Y\ab+aender\xV\N\N\N\((ab)[V|.V],(aender)[V])[V]\N\N\N\Y\r3\N
30\abbeissen\8\C\1\Y\Y\Y\ab+beiss\PV\N\N\N\((ab)[P],(beiss)[V])[V]\N\N\N\Y\i105\N
54\Abbraendler\0\C\1\Y\Y\Y\Abbrand+ler\Nx\N\N\Y\(((ab)[N|.N],((brenn)[V])[N])[N],(ler)[N|N.])[N]\Y\N\Y\N\S1/P2\N
64\Abbruch\66\Z\1\Y\Y\Y\abbrech\V\Y\N\N\(((ab)[V|.V],(brech)[V])[V])[N]\Y\N\N\N\S1/P1u\N
236\Abgeordnete\609\Z\1\Y\Y\Y\abgeordnete\F\N\N\N\((abgeordnete)[F])[N]\N\N\N\N\A\N
1329\Ahne\7\C\1\Y\Y\Y\Ahn+e\Nx\N\N\N\((Ahn)[N],(e)[N|N.])[N]\N\N\N\N\S3/P3\N
    
IdNum
Nummer des Lemmas in durchlaufender Zählung
Head
Oberfläche des Lemmas (ohne Diakritika)
Mann
Frequenz im Mannheim-Korpus
MorphStatus
morphologischer Typ des Lemmas:

morphologisch komplex

C

Abendessen

Konversion

Z

Abflug

monomorphematisch

M

Abend

Morphologie nicht relevant

I

Abakus

lexikalisierte Flexion

F

anhaltend

unbestimmt

U

Adamit

MorphCnt
Anzahl der Analysen für das Lemma. Alle nachfolgenden Felder exisitieren jeweils einmal für jede Analyse.
DerComp
Analyse ist ein derivationelles Kompositum
Comp
Analyse ist ein normales Kompositum
Def
Default-Analyse
Imm
Segmentierung
ImmClass
Folge der Segmentklassen
ImmAllo
Stamm ist nicht Grundformstamm
ImmOpac
opaque Zusammensetzung
ImmUml
umgelauteter Stamm
StrucLab
Strukturierte Segmentierung
StrucAllo
siehe ImmAllo
StrucOpac
siehe ImmOpac
StrucUml
siehe ImmUml
Sepa
abtrennbares Verbpräfix
InflPar
Flexionsparadigma

A

adjektivisch flektiertes Substantiv

I

flektiert, jedoch unklassifiziert

U

unflektiert

i...

irreguläres Verb

r1

reguläres Verb

r2

reguläres Verb mit auf Dental endendem Stamm

r3

reguläres Verb mit auf -el endendem Stamm

r4

reguläres Verb mit auf -er endendem Stamm

r5

reguläres Verb mit auf Vokal endendem Stamm

r6

reguläres Verb mit auf Sibilant endendem Stamm

S...

Singularflexion des Substantivs

P...

Pluralflexion des Substantivs

InflVar
alternative Flexionen

Inhalt

Beispiel: Syntax
IdNum
Nummer des Lemmas in durchlaufender Zählung
Head
Oberfläche des Lemmas (ohne Diakritika)
Mann
Frequenz im Mannheim-Korpus
ClassNum
Wortklasse (numerisch)
  1. Substantiv
  2. Adjektiv
  3. Quantifizierendes Determinativ/Numeral
  4. Verb
  5. Determinativ
  6. Pronomen
  7. Adverb
  8. Präposition
  9. Konjunktion
  10. Interjektion
GendNum
Genus (numerisch)
1 maskulin
2 feminin
3 neutral
12 maskulin/feminin
13 maskulin/neutral
21 feminin/maskulin
213 feminin/maskulin/neutral
23 feminin/neutral
31 neutral/maskulin
32 neutral/feminin
PropNum
Eigennamenstyp, numerisch
  1. geographische Namen
  2. Personennamen
  3. Firmen- oder Produktnamen
SingTant
nur Singularform verwendet
PlurTant
nur Pluralform verwendet
AuxNum
im Perfekt verwendetes Auxiliarverb, numerisch:
1 haben
2 sein
12 haben/sein
SubClassVNum
Verbtyp (numerisch)
  1. Auxiliarverb (haben)
  2. Kopulaverb (bleiben)
  3. unpersönliches Verb (regnen)
  4. Modalverb (dürfen)
  5. lexikalisches Verb (abwaschen)
  6. reflexives lexikalisches Verb (sich beherrschen)
CompComp
In diesem und den nachfolgenden Comp-Feldern wird sehr detailliert die Komplementierbarkeit des Verbs kodiert. Dabei werden Aspekte wie obligatorische versus mögliche Komplementierung, verschiedene Komplementtypen (Nominalphrasen in verschiedenen Kasus, Präpositionalsphrasen, adverbiale Ergänzungen, Infinitvergänzungen etc.) sowie noch weitere Subkategorisierungen. Das Format ist sehr komplex, daher wird auf eine genaue Darstellung verzichtet.
CompEsSubj
 
CompSubj
 
CompAcc
 
CompSecAcc
 
CompDat
 
CompGen
 
CompPrep
 
CompSecPrep
 
CompAdv
 
Grad
Steigerbarkeit von Adjektiven

Kode

Bedeutung

Beispiel

P

nicht steigerbar

übrig

PC

nur Komparativsteigerung

ratsam

PS

nur Superlativsteigerung

ureigen

PCS

voll steigerbar

ulkig

CardOrdNum
Numeraltyp (numerisch)

Kode

Bedeutung

Beispiel

1

Kardinalzahl

acht

2

Ordinalzahl

achte

3

Fraktion

achtel

4

klassifikatorisch

achterlei

5

multiplikativ

achtfach

SubClassPNum
Pronomentyp

Kode

Bedeutung

Beispiel

1

Personalpronomen

du

2

Demonstrativpronomen

dieser

3

Possessivpronomen

dein

4

Relativpronomen

der

5

Interrogativpronomen

welcher

6

Reflexivpronomen

sich

7

reziprokes Pronomen

einander

8

unbestimmt

wenig

Case
von Präposition regierter Kasus, numerisch

Kode

Bedeutung

Beispiel

2

Genitiv

wegen

3

Dativ

mit

34

Dativ oder Akkusativ

an

4

Akkusativ

durch


Markierungssprachen ('mark-up'): HTML, XML, SGML

Was ist 'mark-up', Markierung in diesem Sinne?

Der Anfang des Quelltextes dieser Seite (kann man in den meisten Browsern anschauen, in den Englischen Netscape-Versionen mit dem Befehl "View: Page Source") ist:

<!DOCTYPE HTML PUBLIC "-//SQ//DTD HTML 2.0 HoTMetaL + extensions//EN">
<!--This file created 19.6.2000 16:18 Uhr by Claris Home Page version 2.0-->
<HTML>
<HEAD>
   <TITLE>Vorl.: Lexikonorganisation mit SGML</TITLE>
   <META NAME=GENERATOR CONTENT="Claris Home Page 2.0">
   <X-SAS-WINDOW TOP=66 BOTTOM=870 LEFT=8 RIGHT=538>
   <X-SAS-REMOTESAVE SERVER="arvo.ifi.unizh.ch" USER="gschneid"
   DIR="~gschneid/HOMEPAGE/LexMorphVorl/" FILE="Lexikon12.SGML.html">
</HEAD>
<BODY>
 
<H1>Lexikonorganisation mit SGML und XML</H1>
 
<P><B>Morphologieanalyse und Lexikonaufbau (12. Vorlesung)</B></P>
 
<ADDRESS>Dozent: Gerold Schneider</ADDRESS>
 
<H3>&Uuml;bersicht</H3>
 
<UL>
   <LI><A HREF="#Markup">Mark-up Sprachen: HTML, XML, SGML</A>
   
   <LI><A HREF="SGML.summary.html">Einf&uuml;hrung in SGML</A>
   
   <LI><A HREF="#SGML-XML-Diff">Unterschiede zwischen SGML und
   XML</A>

und so weiter ....

Zusätzlich zum im Browser dargestellten Text enthält der Auszug SGML 'mark-up' tags in <eckigen Klammern>, z.B:

Die Bedeutung und die Anzahl der mark-up tags ist vordefiniert für HTML in SGML. SGML ist die Metasprache, die die Definition einer Mark-up-Sprache ermöglicht. Eine solche Definition steht in einer DTD (Document Type Description).

Kurze Einführung in SGML

Einige Klarstellungen zu SGML

Wann sollte SGML eingesetzt werden?

Unterschiede zwischen SGML und XML

XML steht für "Extensible Markup Language". Der Erfinder von XML und eine wichtige Informationsquelle ist das W3C - das WWW-Consortium.

Hier steht eine gute Übersichtsseite über XML.

Als Einführung in XML empfehle ich "Introduction to XML" (lokale Kopie, Original).

Ziele von XML

Gegenüber SGML:
  • einfacher zu verstehen und zu nutzen für den Menschen
  • einfacher zu verarbeiten für den Computer
Gegenüber HTML:
  • höhere Flexibilität und Mächtigkeit: viele Dokumentenformate möglich
  • Browserunabhängigkeit
  • Benutzerrdefinierte Darstellung möglich
  • Semantisch strukturierte Suchmöglichkeiten

Besonderheiten von XML

Lexikalische Datenbanken

Einige der (erst relativ wenigen) lexikalischen Datenbanken in SGML:

SGML-Lexikoneinträge nach der TEI-Empfehlung

Die Text-Encoding Initiative (TEI) ist ein Kommittee, das die drei grossen Fachorganisationen ACL (Association for Computational Linguistics), ALLC (Association for Literary and Linguistic Computing) und AHC (Association for Computers in the Humanities) im Jahre 1987 gegründet haben. Ziel: Erarbeitung von Empfehlungen für ein Standard-Datenformat zum Textaustausch in den Geisteswissenschaften. Diese Guidelines liegen jetzt als Buch [Sperberg-McQueen und Burnard 94] vor und sind auch über das WWW (TEI-Guidelines) abrufbar.

Gliederung der Guidelines 'TEI-Proposal 3'

Minimale TEI-Textstruktur

<tei.2>
<teiHeader>
  <fileDesc>
    <titleStmt>
      <title> The shortest TEI Document</title>
    <publicationStmt>
      <p> Published as part of TEI P2
    </publicationStmt>
    <sourceDesc>
      <p> no source 
    </sourceDesc>
  </fileDesc>
</teiHeader>
 
<text>
  <body>
  <p> Hello World! </p>
  </body>
</text>
</tei.2>  

SGML-Tags, die in allen TEI-Dokumenten verwendbar sind.

<p> 		für Paragraphe
<emph>   	für Hervorhebungen
<q> 		für Zitate
<address>	für Adressen
<date>	   	für Datumsangaben
<abbr>	   	für Abkürzungen
<ptr>		für Verweise
<list>		für Aufzählungen
<l>	     	für Zeilen (z.B. in Gedichten)

Standard Textstruktur

<tei.2>
<teiHeader> ... </teiHeader>
<text>
  <front> 
  ... z.B. Vorwort eines Buches oder Gebrauchsanweisung für ein Lexikon
  </front>
  <body>
  <p> Hello World! </p>
  </body>
  <back>
  ... z.B. Anhänge
  </back>
</text>
</tei.2>  

SGML-Tags für Lexika (Print Dictionaries)

Die TEI hat auch spezielle Tags erarbeitet, die zur Markierung von Wörterbüchern dienen. Sie finden sich in [Sperberg-McQueen und Burnard 94] (Kapitel 12) und im WWW lokal unter 12: Print Dictionaries (130 KByte; ca. 55 Seiten) und im Original unter 12: Print Dictionaries.

====== AUSZUG aus diesem Kapitel: =======

Overall Structure

<text> contains a single text of any kind, whether unitary or composite, for example a poem or drama, a collection of essays, a novel, a dictionary, or a corpus sample.

<front> contains any prefatory matter (headers, title page, prefaces, dedications, etc.) found before the start of a text proper.

<body> contains the whole body of a single unitary text, excluding any front or back matter.

<back> contains any appendixes, etc. following the main part of a text.

<div> contains a subdivision of the front, body, or back of a text.

<div0> contains the largest possible subdivision of the body of a text.

<div1> contains a first-level subdivision of the front, body, or back of a text (the largest, if <div0> is not used, the second largest if it is).

<entry> contains a reasonably well-structured dictionary entry.

<entryFree> contains a dictionary entry which does not necessarily conform to the constraints imposed by the <entry> element.

<superentry> groups successive entries for a set of homographs.

(...)

Groups and Constituents

As noted above, dictionary entries, and subordinate levels within dictionary entries, may comprise several constituent parts, each providing a different type of information about the word treated. The top-level constituents of dictionary entries are:

Any of the hierarchical levels ( <entry>, <entryFree>, <hom>, <sense>) may contain any of these top-level constituents, since information about word form, particular grammatical information, special pronunciation, usage information, etc., may apply to an entire entry, or to only one homograph, or only to a particular sense. The examples below illustrate this point.

The following elements are used to encode these top-level constituents:

In a simple entry with no internal hierarchy, all top-level constituents appear at the <entry> level.

(...)

To simplify the electronic presentation of this document on systems with limited character sets, many of the pronunciations are presented using the transliteration found in the electronic edition of the Oxford Advanced Learner's Dictionary. Also, the middle dot in quoted entries is rendered with a full stop, while within the sample transcriptions hyphenation and syllabification points are indicated with |, regardless of their rendition in the source text. `` com.peti.tor /k@m"petit@(r)/ n person who competes. [OALD] ''

<entry>
  <form>
    <orth>competitor</orth>
    <hyph>com|peti|tor</hyph>
    <pron>k@m"petit@(r)</pron>
  </form>
  <gramGrp>
    <pos>n</pos>
  </gramGrp>
  <def>person who competes.</def>
</entry>
 

For the elements which appear within the <form> and <gramGrp> elements of this example, see section 12.3.1, Information on Written and Spoken Forms, and section 12.3.2, Grammatical Information.

As mentioned above, any top-level constituent can appear at any level when the hierarchical structure of the entry is more complex. The most obvious examples are <def> and <trans>, which appear at the <sense> level when several senses or translations exist: `` disproof (dIs"pru:f) n. 1. facts that disprove something. 2. the act of disproving. [CED] ''

<entry>
  <form>
    <orth>disproof</orth>
    <pron>dIs"pru:f</pron>
  </form>
  <gramGrp><pos>n</gramGrp>
  <sense n='1'><def>facts that disprove something.</def></sense>
  <sense n='2'><def>the act of disproving.</def></sense>
</entry>
 

In the following example, <gramGrp> is used to distinguish two homographs: `` bray /breI/ n cry of an ass; sound of a trumpet. ▪ vt [VP2A] make a cry or sound of this kind. [OALD] ''

<entry>
  <form>
    <orth>bray</orth>
    <pron>breI</pron>
  </form>
  <hom>
    <gramGrp><pos>n</pos></gramGrp>
    <def>cry of an ass; sound of a trumpet.</def>
  </hom>
  <hom>
    <gramGrp>
      <pos>vt</pos>
      <subc>VP2A</subc>
    </gramGrp>
    <def>make a cry or sound of this kind.</def>
  </hom>
</entry>
 
 

Information of the same kind can appear at different levels within the same entry; here, grammatical information occurs both at entry and homograph level. `` ca.reen /k@"ri:n/ vt,vi 1 [VP6A] turn (a ship) on one side for cleaning, repairing, etc. 2 [VP6A, 2A] (cause to) tilt, lean over to one side. [OALD] ''

<entry>
  <form>
    <orth>careen</orth>
    <hyph>ca|reen</hyph>
    <pron>k@"ri:n</pron>
  </form>
  <gramGrp>
    <pos>vt</pos>
    <pos>vi</pos>
  </gramGrp>
  <sense n='1'>
    <gramGrp><subc>VP6A</subc></gramGrp>
    <def>turn (a ship) on one side for cleaning,
         repairing, etc.</def>
  </sense>
  <sense n='2'>
    <gramGrp>
      <subc>VP6A</subc>
      <subc>VP2A</subc>
    </gramGrp>
    <def>(cause to) tilt, lean over to one side.</def>
  </sense>
</entry>
 

Alone among the constituent groups, <form> can appear at the <superEntry> level as well as at the <entry>, <hom>, and <sense> levels: `` a.ban.don 1 /@"b&amp;nd@n/ v [T1] 1 to leave completely and for ever; desert: The sailors abandoned the burning ship. 2 ... abandon 2 n [U] the state when one's feelings and actions are uncontrolled; freedom from control: The people were so excited that they jumped and shouted with abandon / in gay abandon. [LDOCE] ''

<superEntry>
  <form>
    <orth>abandon</orth>
    <hyph>a|ban|don</hyph>
    <pron>@"b&amp;nd@n</pron>
  </form>
  <entry n='1'>
    <gramGrp> <pos>v</pos> <subc>T1</subc> </gramGrp>
    <sense n='1'><def>to leave completely and for ever ...</def>
      <!-- ... -->
    </sense>
    <sense n='2'>
      <!-- ... -->
    </sense>
  </entry>
  <entry n='2'>
    <gramGrp> <pos>n/pos> <subc>U</subc> </gramGrp>
    <def>the state when one's feelings and actions are
            uncontrolled; freedom from control</def>
    <!-- ... -->
  </entry>
</superEntry>

====== Ende des AUSZUGES =======

Korpora mit SGML oder XML Strukturierung

Neben lexikalischen Datenbanken stehen dem Linguisten heute auch viele literarische und historische Texte und Korpora mit SGML oder XML Strukturierung und Annotierung zur Verfügung. Siehe z.B. das Oxford Text Archive (OTA) , dessen Texte in der Regel die TEI befolgen.


Gerold Schneider, Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch