Computerlinguistik Uni Erlangen
Zurück:
Unterlagen
Vorher:
Achte Sitzung
Neunte Sitzung - CELEX-Überblick
Was ist CELEX?
CELEX (http://www.kun.nl/celex) ist eine Lexikon- und
Wortformdatenbank, die am Max-Planck-Institut für
Psycholinguistik in Nijmegen (NL) erstellt wurde. CELEX
enthält lexikalische Information für
Niederländisch, Englisch und Deutsch.
| Lemmata
| Wortformen
|
Niederländisch
| 124136
| 381292
|
Englisch
| 52446
| 160594
|
Deutsch
| 51728
| 365530
|
Im Original ist CELEX als Datenbanksystem konzipiert, so daß
auf die gespeicherten Daten bequem und schnell zugegriffen werden
kann. CELEX ist jedoch auch auf CD-ROM erhältlich, wobei der
Datenbankabzug auf mehrere Dateien verteilt wurde, so daß
der Zugriff erschwert wurde. Der CD-ROM-Abzug für das
Englische und das Deutsche ist in der CLUE unter
/projects/lexika/Celex/ verfügbar.
Was steht in CELEX?
Die in CELEX kodierte Information ist für alle drei Sprachen
im Prinzip gleich strukturiert, was eine parallele Verarbeitung
erleichtert. In der folgenden Auflistung sind Beispiele aus den
sechs Unterbereichen der in CELEX kodierten Information
dargestellt.
- Orthographie:
- mit und ohne Diakritika
- alternative Schreibweisen
- Anzahl der Buchstaben/Silben
- Phonologie
- phonetische Transkription in verschiedenen
maschinenlesbaren Notationen, mit Silbengrenzen und Betonung
- Konsonant-Vokal-Muster
- Anzahl der Phoneme/Silben
- alternative Aussprachen
- Morphologie
- derivationale/kompositionale Zerlegung in Stämme
und Affixe
- flache oder hierarchische Analysedarstellungen
- Flexionsmorphologie
- Syntax
- Wortklasse
- Wortklassen-Subkategorisierung
- Frequenz
Form und Inhalt
Am Beispiel von Teilen des deutschen CELEX soll nun dessen Form
und Inhalt exemplarisch dargestellt werden.
Form
Die Lemmainformation ist auf sechs Dateien verteilt, die den oben
genannten sechs Teilbereichen entsprechen. Jede Datei enthält
dabei für alle Lemmata die entsprechende Teilinformation in
einem tabellarischen Format.
Jedes Lemma besteht aus einer bestimmten Anzahl von Feldern, die
durch Backslashes getrennt sind. Jedes Feld hat dabei eine feste
Bedeutung. Die Einträge müssen jedoch nicht immer
dieselbe Anzahl von Feldern haben; es existieren
Multiplikatorenfelder, die angeben, wie viele verschiedene
Lesarten folgen. Für jede der Lesarten werden die
nachfolgenden Felder wiederholt.
Der Datenbankcharakter von CELEX ist also nicht zu übersehen;
für den menschlichen Betrachter ist dieses Format jedoch kaum
geeignet, da es schlecht lesbar und sehr unübersichtlich
ist. Eine Extraktion aus dem Lexikon wird dadurch erschwert,
daß sie auf verschiedene Dateien verteilt ist.
16436\hausintern\1\'hBs-In-tErn\[haus][In][tErn]\'hBs-In-tErn\[haus][In][tErn]\[CVVC][VC][CVCC]\[CVVC][VC][CVCC]\hauz#IntErn\hauz#IntErn
16437\haeuslich\35\'hXs-lIx\[hOys][lIx]\'hXs-lIx\[hOys][lIx]\[CVVC][CVC]\[CVVC][CVC]\hauz#lIx\hauz#lIx
16438\Haeuslichkeit\3\'hXs-lIx-kWt\[hOys][lIx][kait]\'hXs-lIx-kWt\[hOys][lIx][kait]\[CVVC][CVC][CVVC]\[CVVC][CVC][CVVC]\hauz#lIx#kait\hauz#lIx#kait
16439\Hausmann\2\'hBs-m&n\[haus][man]\'hBs-m&n\[haus][man]\[CVVC][CVC]\[CVVC][CVC]\\
16440\Hausmannskost\3\'hBs-m&ns-kOst\[haus][mans][kOst]\'hBs-m&ns-kOst\[haus][mans][kOst]\[CVVC][CVCC][CVCC]\[CVVC][CVCC][CVCC]\\
16441\Hausmeier\22\'hBs-mW-@r\[haus][mai][@r]\'hBs-mW-@r\[haus][mai][@r]\[CVVC][CVV][VC]\[CVVC][CVV][VC]\hauz#mai@r\hauz#mai@r
16442\Hausmeister\66\'hBs-mWs-t@r\[haus][mais][t@r]\'hBs-mWs-t@r\[haus][mais][t@r]\[CVVC][CVVC][CVC]\[CVVC][CVVC][CVC]\hauz#maist@r\hauz#maist@r
16443\Hausmittel\4\'hBs-mI-t@l\[haus][mI[t]@l]\'hBs-mI-t@l\[haus][mI[t]@l]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#mIt@l\hauz#mIt@l
16444\Hausnummer\15\'hBs-nU-m@r\[haus][nU[m]@r]\'hBs-nU-m@r\[haus][nU[m]@r]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#nUm@r\hauz#nUm@r
16445\Hausordnung\8\'hBs-Or-dnUN\[haus][Or][dnUN]\'hBs-Or-dnUN\[haus][Or][dnUN]\[CVVC][VC][CCVC]\[CVVC][VC][CCVC]\hauz#Ordn+UN\hauz#Ordn+UN
Inhalt
Beispiel: Morphologie
7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y
8\Aasgeier\2\C\1\Y\Y\Y\Aas+Geier\NN\N\N\N\((Aas)[N],(Geier)[N])[N]\N\N\N\N\S1/P2\N
12\abaendern\16\C\1\Y\Y\Y\ab+aender\xV\N\N\N\((ab)[V|.V],(aender)[V])[V]\N\N\N\Y\r3\N
30\abbeissen\8\C\1\Y\Y\Y\ab+beiss\PV\N\N\N\((ab)[P],(beiss)[V])[V]\N\N\N\Y\i105\N
54\Abbraendler\0\C\1\Y\Y\Y\Abbrand+ler\Nx\N\N\Y\(((ab)[N|.N],((brenn)[V])[N])[N],(ler)[N|N.])[N]\Y\N\Y\N\S1/P2\N
64\Abbruch\66\Z\1\Y\Y\Y\abbrech\V\Y\N\N\(((ab)[V|.V],(brech)[V])[V])[N]\Y\N\N\N\S1/P1u\N
236\Abgeordnete\609\Z\1\Y\Y\Y\abgeordnete\F\N\N\N\((abgeordnete)[F])[N]\N\N\N\N\A\N
1329\Ahne\7\C\1\Y\Y\Y\Ahn+e\Nx\N\N\N\((Ahn)[N],(e)[N|N.])[N]\N\N\N\N\S3/P3\N
- IdNum
- Nummer des Lemmas in durchlaufender Zählung
- Head
- Oberfläche des Lemmas (ohne Diakritika)
- Mann
- Frequenz im Mannheim-Korpus
- MorphStatus
- morphologischer Typ des Lemmas:
morphologisch komplex
| C
| Abendessen
|
Konversion
| Z
| Abflug
|
monomorphematisch
| M
| Abend
|
Morphologie nicht relevant
| I
| Abakus
|
lexikalisierte Flexion
| F
| anhaltend
|
unbestimmt
| U
| Adamit
|
- MorphCnt
- Anzahl der Analysen für das Lemma. Alle nachfolgenden
Felder exisitieren jeweils einmal für jede Analyse.
- DerComp
- Analyse ist ein derivationelles Kompositum
- Comp
- Analyse ist ein normales Kompositum
- Def
- Default-Analyse
- Imm
- Segmentierung
- ImmClass
- Folge der Segmentklassen
- ImmAllo
- Stamm ist nicht Grundformstamm
- ImmOpac
- opaque Zusammensetzung
- ImmUml
- umgelauteter Stamm
- StrucLab
- Strukturierte Segmentierung
- StrucAllo
- siehe ImmAllo
- StrucOpac
- siehe ImmOpac
- StrucUml
- siehe ImmUml
- Sepa
- abtrennbares Verbpräfix
- InflPar
- Flexionsparadigma
A
| adjektivisch flektiertes Substantiv
|
I
| flektiert, jedoch unklassifiziert
|
U
| unflektiert
|
i...
| irreguläres Verb
|
r1
| reguläres Verb
|
r2
| reguläres Verb mit auf Dental endendem Stamm
|
r3
| reguläres Verb mit auf -el endendem Stamm
|
r4
| reguläres Verb mit auf -er endendem Stamm
|
r5
| reguläres Verb mit auf Vokal endendem Stamm
|
r6
| reguläres Verb mit auf Sibilant endendem Stamm
|
S...
| Singularflexion des Substantivs
|
P...
| Pluralflexion des Substantivs
|
- InflVar
- alternative Flexionen
Inhalt
Beispiel: Syntax
- IdNum
- Nummer des Lemmas in durchlaufender Zählung
- Head
- Oberfläche des Lemmas (ohne Diakritika)
- Mann
- Frequenz im Mannheim-Korpus
- ClassNum
- Wortklasse (numerisch)
- Substantiv
- Adjektiv
- Quantifizierendes Determinativ/Numeral
- Verb
- Determinativ
- Pronomen
- Adverb
- Präposition
- Konjunktion
- Interjektion
- GendNum
- Genus (numerisch)
- 1 maskulin
- 2 feminin
- 3 neutral
- 12 maskulin/feminin
- 13 maskulin/neutral
- 21 feminin/maskulin
- 213 feminin/maskulin/neutral
- 23 feminin/neutral
- 31 neutral/maskulin
- 32 neutral/feminin
- PropNum
- Eigennamenstyp, numerisch
- geographische Namen
- Personennamen
- Firmen- oder Produktnamen
- SingTant
- nur Singularform verwendet
- PlurTant
- nur Pluralform verwendet
- AuxNum
- im Perfekt verwendetes Auxiliarverb, numerisch:
- 1 haben
- 2 sein
- 12 haben/sein
- SubClassVNum
- Verbtyp (numerisch)
- Auxiliarverb (haben)
- Kopulaverb (bleiben)
- unpersönliches Verb (regnen)
- Modalverb (dürfen)
- lexikalisches Verb (abwaschen)
- reflexives lexikalisches Verb (sich beherrschen)
- CompComp
- In diesem und den nachfolgenden Comp-Feldern wird sehr
detailliert die Komplementierbarkeit des Verbs kodiert. Dabei
werden Aspekte wie obligatorische versus mögliche
Komplementierung, verschiedene Komplementtypen (Nominalphrasen
in verschiedenen Kasus, Präpositionalsphrasen, adverbiale
Ergänzungen, Infinitvergänzungen etc.) sowie noch
weitere Subkategorisierungen. Das Format ist sehr komplex, daher
wird auf eine genaue Darstellung verzichtet.
- CompEsSubj
-
- CompSubj
-
- CompAcc
-
- CompSecAcc
-
- CompDat
-
- CompGen
-
- CompPrep
-
- CompSecPrep
-
- CompAdv
-
- Grad
- Steigerbarkeit von Adjektiven
Kode
| Bedeutung
| Beispiel
|
P
| nicht steigerbar
| übrig
|
PC
| nur Komparativsteigerung
| ratsam
|
PS
| nur Superlativsteigerung
| ureigen
|
PCS
| voll steigerbar
| ulkig
|
- CardOrdNum
- Numeraltyp (numerisch)
Kode
| Bedeutung
| Beispiel
|
1
| Kardinalzahl
| acht
|
2
| Ordinalzahl
| achte
|
3
| Fraktion
| achtel
|
4
| klassifikatorisch
| achterlei
|
5
| multiplikativ
| achtfach
|
- SubClassPNum
- Pronomentyp
Kode
| Bedeutung
| Beispiel
|
1
| Personalpronomen
| du
|
2
| Demonstrativpronomen
| dieser
|
3
| Possessivpronomen
| dein
|
4
| Relativpronomen
| der
|
5
| Interrogativpronomen
| welcher
|
6
| Reflexivpronomen
| sich
|
7
| reziprokes Pronomen
| einander
|
8
| unbestimmt
| wenig
|
- Case
- von Präposition regierter Kasus, numerisch
Kode
| Bedeutung
| Beispiel
|
2
| Genitiv
| wegen
|
3
| Dativ
| mit
|
34
| Dativ oder Akkusativ
| an
|
4
| Akkusativ
| durch
|
Zurück:
Unterlagen
Vorher:
Achte Sitzung
Oliver Lorenz
Jörg
Schreiber
zuletzt geändert am 14. Juli 1998