CLUE Computerlinguistik Uni Erlangen
Vorher Zurück
Zurück: Unterlagen Vorher: Achte Sitzung

Neunte Sitzung - CELEX-Überblick

Was ist CELEX?

CELEX (http://www.kun.nl/celex) ist eine Lexikon- und Wortformdatenbank, die am Max-Planck-Institut für Psycholinguistik in Nijmegen (NL) erstellt wurde. CELEX enthält lexikalische Information für Niederländisch, Englisch und Deutsch.
Lemmata Wortformen
Niederländisch 124136 381292
Englisch 52446 160594
Deutsch 51728 365530
Im Original ist CELEX als Datenbanksystem konzipiert, so daß auf die gespeicherten Daten bequem und schnell zugegriffen werden kann. CELEX ist jedoch auch auf CD-ROM erhältlich, wobei der Datenbankabzug auf mehrere Dateien verteilt wurde, so daß der Zugriff erschwert wurde. Der CD-ROM-Abzug für das Englische und das Deutsche ist in der CLUE unter /projects/lexika/Celex/ verfügbar.

Was steht in CELEX?

Die in CELEX kodierte Information ist für alle drei Sprachen im Prinzip gleich strukturiert, was eine parallele Verarbeitung erleichtert. In der folgenden Auflistung sind Beispiele aus den sechs Unterbereichen der in CELEX kodierten Information dargestellt.

Form und Inhalt

Am Beispiel von Teilen des deutschen CELEX soll nun dessen Form und Inhalt exemplarisch dargestellt werden.

Form

Die Lemmainformation ist auf sechs Dateien verteilt, die den oben genannten sechs Teilbereichen entsprechen. Jede Datei enthält dabei für alle Lemmata die entsprechende Teilinformation in einem tabellarischen Format.

Jedes Lemma besteht aus einer bestimmten Anzahl von Feldern, die durch Backslashes getrennt sind. Jedes Feld hat dabei eine feste Bedeutung. Die Einträge müssen jedoch nicht immer dieselbe Anzahl von Feldern haben; es existieren Multiplikatorenfelder, die angeben, wie viele verschiedene Lesarten folgen. Für jede der Lesarten werden die nachfolgenden Felder wiederholt.

Der Datenbankcharakter von CELEX ist also nicht zu übersehen; für den menschlichen Betrachter ist dieses Format jedoch kaum geeignet, da es schlecht lesbar und sehr unübersichtlich ist. Eine Extraktion aus dem Lexikon wird dadurch erschwert, daß sie auf verschiedene Dateien verteilt ist.

16436\hausintern\1\'hBs-In-tErn\[haus][In][tErn]\'hBs-In-tErn\[haus][In][tErn]\[CVVC][VC][CVCC]\[CVVC][VC][CVCC]\hauz#IntErn\hauz#IntErn
16437\haeuslich\35\'hXs-lIx\[hOys][lIx]\'hXs-lIx\[hOys][lIx]\[CVVC][CVC]\[CVVC][CVC]\hauz#lIx\hauz#lIx
16438\Haeuslichkeit\3\'hXs-lIx-kWt\[hOys][lIx][kait]\'hXs-lIx-kWt\[hOys][lIx][kait]\[CVVC][CVC][CVVC]\[CVVC][CVC][CVVC]\hauz#lIx#kait\hauz#lIx#kait
16439\Hausmann\2\'hBs-m&n\[haus][man]\'hBs-m&n\[haus][man]\[CVVC][CVC]\[CVVC][CVC]\\
16440\Hausmannskost\3\'hBs-m&ns-kOst\[haus][mans][kOst]\'hBs-m&ns-kOst\[haus][mans][kOst]\[CVVC][CVCC][CVCC]\[CVVC][CVCC][CVCC]\\
16441\Hausmeier\22\'hBs-mW-@r\[haus][mai][@r]\'hBs-mW-@r\[haus][mai][@r]\[CVVC][CVV][VC]\[CVVC][CVV][VC]\hauz#mai@r\hauz#mai@r
16442\Hausmeister\66\'hBs-mWs-t@r\[haus][mais][t@r]\'hBs-mWs-t@r\[haus][mais][t@r]\[CVVC][CVVC][CVC]\[CVVC][CVVC][CVC]\hauz#maist@r\hauz#maist@r
16443\Hausmittel\4\'hBs-mI-t@l\[haus][mI[t]@l]\'hBs-mI-t@l\[haus][mI[t]@l]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#mIt@l\hauz#mIt@l
16444\Hausnummer\15\'hBs-nU-m@r\[haus][nU[m]@r]\'hBs-nU-m@r\[haus][nU[m]@r]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#nUm@r\hauz#nUm@r
16445\Hausordnung\8\'hBs-Or-dnUN\[haus][Or][dnUN]\'hBs-Or-dnUN\[haus][Or][dnUN]\[CVVC][VC][CCVC]\[CVVC][VC][CCVC]\hauz#Ordn+UN\hauz#Ordn+UN
    

Inhalt

Beispiel: Morphologie
7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y
8\Aasgeier\2\C\1\Y\Y\Y\Aas+Geier\NN\N\N\N\((Aas)[N],(Geier)[N])[N]\N\N\N\N\S1/P2\N
12\abaendern\16\C\1\Y\Y\Y\ab+aender\xV\N\N\N\((ab)[V|.V],(aender)[V])[V]\N\N\N\Y\r3\N
30\abbeissen\8\C\1\Y\Y\Y\ab+beiss\PV\N\N\N\((ab)[P],(beiss)[V])[V]\N\N\N\Y\i105\N
54\Abbraendler\0\C\1\Y\Y\Y\Abbrand+ler\Nx\N\N\Y\(((ab)[N|.N],((brenn)[V])[N])[N],(ler)[N|N.])[N]\Y\N\Y\N\S1/P2\N
64\Abbruch\66\Z\1\Y\Y\Y\abbrech\V\Y\N\N\(((ab)[V|.V],(brech)[V])[V])[N]\Y\N\N\N\S1/P1u\N
236\Abgeordnete\609\Z\1\Y\Y\Y\abgeordnete\F\N\N\N\((abgeordnete)[F])[N]\N\N\N\N\A\N
1329\Ahne\7\C\1\Y\Y\Y\Ahn+e\Nx\N\N\N\((Ahn)[N],(e)[N|N.])[N]\N\N\N\N\S3/P3\N
    
IdNum
Nummer des Lemmas in durchlaufender Zählung
Head
Oberfläche des Lemmas (ohne Diakritika)
Mann
Frequenz im Mannheim-Korpus
MorphStatus
morphologischer Typ des Lemmas:
morphologisch komplex C Abendessen
Konversion Z Abflug
monomorphematisch M Abend
Morphologie nicht relevant I Abakus
lexikalisierte Flexion F anhaltend
unbestimmt U Adamit
MorphCnt
Anzahl der Analysen für das Lemma. Alle nachfolgenden Felder exisitieren jeweils einmal für jede Analyse.
DerComp
Analyse ist ein derivationelles Kompositum
Comp
Analyse ist ein normales Kompositum
Def
Default-Analyse
Imm
Segmentierung
ImmClass
Folge der Segmentklassen
ImmAllo
Stamm ist nicht Grundformstamm
ImmOpac
opaque Zusammensetzung
ImmUml
umgelauteter Stamm
StrucLab
Strukturierte Segmentierung
StrucAllo
siehe ImmAllo
StrucOpac
siehe ImmOpac
StrucUml
siehe ImmUml
Sepa
abtrennbares Verbpräfix
InflPar
Flexionsparadigma
A adjektivisch flektiertes Substantiv
I flektiert, jedoch unklassifiziert
U unflektiert
i... irreguläres Verb
r1 reguläres Verb
r2 reguläres Verb mit auf Dental endendem Stamm
r3 reguläres Verb mit auf -el endendem Stamm
r4 reguläres Verb mit auf -er endendem Stamm
r5 reguläres Verb mit auf Vokal endendem Stamm
r6 reguläres Verb mit auf Sibilant endendem Stamm
S... Singularflexion des Substantivs
P... Pluralflexion des Substantivs
InflVar
alternative Flexionen

Inhalt

Beispiel: Syntax
IdNum
Nummer des Lemmas in durchlaufender Zählung
Head
Oberfläche des Lemmas (ohne Diakritika)
Mann
Frequenz im Mannheim-Korpus
ClassNum
Wortklasse (numerisch)
  1. Substantiv
  2. Adjektiv
  3. Quantifizierendes Determinativ/Numeral
  4. Verb
  5. Determinativ
  6. Pronomen
  7. Adverb
  8. Präposition
  9. Konjunktion
  10. Interjektion
GendNum
Genus (numerisch)
1 maskulin
2 feminin
3 neutral
12 maskulin/feminin
13 maskulin/neutral
21 feminin/maskulin
213 feminin/maskulin/neutral
23 feminin/neutral
31 neutral/maskulin
32 neutral/feminin
PropNum
Eigennamenstyp, numerisch
  1. geographische Namen
  2. Personennamen
  3. Firmen- oder Produktnamen
SingTant
nur Singularform verwendet
PlurTant
nur Pluralform verwendet
AuxNum
im Perfekt verwendetes Auxiliarverb, numerisch:
1 haben
2 sein
12 haben/sein
SubClassVNum
Verbtyp (numerisch)
  1. Auxiliarverb (haben)
  2. Kopulaverb (bleiben)
  3. unpersönliches Verb (regnen)
  4. Modalverb (dürfen)
  5. lexikalisches Verb (abwaschen)
  6. reflexives lexikalisches Verb (sich beherrschen)
CompComp
In diesem und den nachfolgenden Comp-Feldern wird sehr detailliert die Komplementierbarkeit des Verbs kodiert. Dabei werden Aspekte wie obligatorische versus mögliche Komplementierung, verschiedene Komplementtypen (Nominalphrasen in verschiedenen Kasus, Präpositionalsphrasen, adverbiale Ergänzungen, Infinitvergänzungen etc.) sowie noch weitere Subkategorisierungen. Das Format ist sehr komplex, daher wird auf eine genaue Darstellung verzichtet.
CompEsSubj
CompSubj
CompAcc
CompSecAcc
CompDat
CompGen
CompPrep
CompSecPrep
CompAdv
Grad
Steigerbarkeit von Adjektiven
Kode Bedeutung Beispiel
P nicht steigerbar übrig
PC nur Komparativsteigerung ratsam
PS nur Superlativsteigerung ureigen
PCS voll steigerbar ulkig
CardOrdNum
Numeraltyp (numerisch)
Kode Bedeutung Beispiel
1 Kardinalzahl acht
2 Ordinalzahl achte
3 Fraktion achtel
4 klassifikatorisch achterlei
5 multiplikativ achtfach
SubClassPNum
Pronomentyp
Kode Bedeutung Beispiel
1 Personalpronomen du
2 Demonstrativpronomen dieser
3 Possessivpronomen dein
4 Relativpronomen der
5 Interrogativpronomen welcher
6 Reflexivpronomen sich
7 reziprokes Pronomen einander
8 unbestimmt wenig
Case
von Präposition regierter Kasus, numerisch
Kode Bedeutung Beispiel
2 Genitiv wegen
3 Dativ mit
34 Dativ oder Akkusativ an
4 Akkusativ durch

Vorher Zurück
Zurück: Unterlagen Vorher: Achte Sitzung
Oliver Lorenz Jörg Schreiber
zuletzt geändert am 14. Juli 1998