Beispiele für CL Lexika I:

CELEX; TEI & SGML

Morphologieanalyse und Lexikonaufbau (12. Vorlesung)

Dozent: Gerold Schneider

Übersicht

CELEX:

Was ist CELEX
Was steht in CELEX
Form und Inhalt

TEI & SGML:

Markierungssprachen ('mark-up'): HTML, XML, SGML
Einführung in SGML
Unterschiede zwischen SGML und XML
Lexikalische Datenbanken
SGML-Lexikoneinträge nach der TEI-Empfehlung
SGML-Tags für Lexika (Print Dictionaries)
Korpora mit SGML oder XML Strukturierung

CELEX-Überblick

nach Lorenz & Schreiber 1998, Seminar Uni Erlangen

Was ist CELEX?

CELEX (http://www.kun.nl/celex) ist eine Lexikon- und Wortformdatenbank, die am Max-Planck-Institut für Psycholinguistik in Nijmegen (NL) erstellt wurde. CELEX enthält lexikalische Information für Niederländisch, Englisch und Deutsch.

Lemmata

Wortformen

Niederländisch

124136

381292

Englisch

52446

160594

Deutsch

51728

365530

Im Original ist CELEX als Datenbanksystem konzipiert, so daß auf die gespeicherten Daten bequem und schnell zugegriffen werden kann. CELEX ist jedoch auch auf CD-ROM erhältlich, wobei der Datenbankabzug auf mehrere Dateien verteilt wurde, so daß der Zugriff erschwert wurde. Der CD-ROM-Abzug für das Englische und das Deutsche ist in der CLUE unter /projects/lexika/Celex/ verfügbar.

Was steht in CELEX?

Die in CELEX kodierte Information ist für alle drei Sprachen im Prinzip gleich strukturiert, was eine parallele Verarbeitung erleichtert. In der folgenden Auflistung sind Beispiele aus den sechs Unterbereichen der in CELEX kodierten Information dargestellt.

Orthographie:
- mit und ohne Diakritika
- alternative Schreibweisen
- Anzahl der Buchstaben/Silben
Phonologie
- phonetische Transkription in verschiedenen maschinenlesbaren Notationen, mit Silbengrenzen und Betonung
- Konsonant-Vokal-Muster
- Anzahl der Phoneme/Silben
- alternative Aussprachen
Morphologie
- derivationale/kompositionale Zerlegung in Stämme und Affixe
- flache oder hierarchische Analysedarstellungen
- Flexionsmorphologie
Syntax
- Wortklasse
- Wortklassen-Subkategorisierung
Frequenz

Form und Inhalt

Am Beispiel von Teilen des deutschen CELEX soll nun dessen Form und Inhalt exemplarisch dargestellt werden.

Form

Die Lemmainformation ist auf sechs Dateien verteilt, die den oben genannten sechs Teilbereichen entsprechen. Jede Datei enthält dabei für alle Lemmata die entsprechende Teilinformation in einem tabellarischen Format.

Jedes Lemma besteht aus einer bestimmten Anzahl von Feldern, die durch Backslashes getrennt sind. Jedes Feld hat dabei eine feste Bedeutung. Die Einträge müssen jedoch nicht immer dieselbe Anzahl von Feldern haben; es existieren Multiplikatorenfelder, die angeben, wie viele verschiedene Lesarten folgen. Für jede der Lesarten werden die nachfolgenden Felder wiederholt.

Der Datenbankcharakter von CELEX ist also nicht zu übersehen; für den menschlichen Betrachter ist dieses Format jedoch kaum geeignet, da es schlecht lesbar und sehr unübersichtlich ist. Eine Extraktion aus dem Lexikon wird dadurch erschwert, daß sie auf verschiedene Dateien verteilt ist.

16436\hausintern\1\'hBs-In-tErn\[haus][In][tErn]\'hBs-In-tErn\[haus][In][tErn]\[CVVC][VC][CVCC]\[CVVC][VC][CVCC]\hauz#IntErn\hauz#IntErn
16437\haeuslich\35\'hXs-lIx\[hOys][lIx]\'hXs-lIx\[hOys][lIx]\[CVVC][CVC]\[CVVC][CVC]\hauz#lIx\hauz#lIx
16438\Haeuslichkeit\3\'hXs-lIx-kWt\[hOys][lIx][kait]\'hXs-lIx-kWt\[hOys][lIx][kait]\[CVVC][CVC][CVVC]\[CVVC][CVC][CVVC]\hauz#lIx#kait\hauz#lIx#kait
16439\Hausmann\2\'hBs-m&n;\[haus][man]\'hBs-m&n;\[haus][man]\[CVVC][CVC]\[CVVC][CVC]\\
16440\Hausmannskost\3\'hBs-m&ns-kOst;\[haus][mans][kOst]\'hBs-m&ns-kOst;\[haus][mans][kOst]\[CVVC][CVCC][CVCC]\[CVVC][CVCC][CVCC]\\
16441\Hausmeier\22\'hBs-mW-@r\[haus][mai][@r]\'hBs-mW-@r\[haus][mai][@r]\[CVVC][CVV][VC]\[CVVC][CVV][VC]\hauz#mai@r\hauz#mai@r
16442\Hausmeister\66\'hBs-mWs-t@r\[haus][mais][t@r]\'hBs-mWs-t@r\[haus][mais][t@r]\[CVVC][CVVC][CVC]\[CVVC][CVVC][CVC]\hauz#maist@r\hauz#maist@r
16443\Hausmittel\4\'hBs-mI-t@l\[haus][mI[t]@l]\'hBs-mI-t@l\[haus][mI[t]@l]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#mIt@l\hauz#mIt@l
16444\Hausnummer\15\'hBs-nU-m@r\[haus][nU[m]@r]\'hBs-nU-m@r\[haus][nU[m]@r]\[CVVC][CV[C]VC]\[CVVC][CV[C]VC]\hauz#nUm@r\hauz#nUm@r
16445\Hausordnung\8\'hBs-Or-dnUN\[haus][Or][dnUN]\'hBs-Or-dnUN\[haus][Or][dnUN]\[CVVC][VC][CCVC]\[CVVC][VC][CCVC]\hauz#Ordn+UN\hauz#Ordn+UN

Inhalt

Beispiel: Morphologie

7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y
8\Aasgeier\2\C\1\Y\Y\Y\Aas+Geier\NN\N\N\N\((Aas)[N],(Geier)[N])[N]\N\N\N\N\S1/P2\N
12\abaendern\16\C\1\Y\Y\Y\ab+aender\xV\N\N\N\((ab)[V|.V],(aender)[V])[V]\N\N\N\Y\r3\N
30\abbeissen\8\C\1\Y\Y\Y\ab+beiss\PV\N\N\N\((ab)[P],(beiss)[V])[V]\N\N\N\Y\i105\N
54\Abbraendler\0\C\1\Y\Y\Y\Abbrand+ler\Nx\N\N\Y\(((ab)[N|.N],((brenn)[V])[N])[N],(ler)[N|N.])[N]\Y\N\Y\N\S1/P2\N
64\Abbruch\66\Z\1\Y\Y\Y\abbrech\V\Y\N\N\(((ab)[V|.V],(brech)[V])[V])[N]\Y\N\N\N\S1/P1u\N
236\Abgeordnete\609\Z\1\Y\Y\Y\abgeordnete\F\N\N\N\((abgeordnete)[F])[N]\N\N\N\N\A\N
1329\Ahne\7\C\1\Y\Y\Y\Ahn+e\Nx\N\N\N\((Ahn)[N],(e)[N|N.])[N]\N\N\N\N\S3/P3\N

IdNum

Nummer des Lemmas in durchlaufender Zählung

Head

Oberfläche des Lemmas (ohne Diakritika)

Mann

Frequenz im Mannheim-Korpus

MorphStatus

morphologischer Typ des Lemmas:

morphologisch komplex	`C`	Abendessen
Konversion	`Z`	Abflug
monomorphematisch	`M`	Abend
Morphologie nicht relevant	`I`	Abakus
lexikalisierte Flexion	`F`	anhaltend
unbestimmt	`U`	Adamit

MorphCnt

Anzahl der Analysen für das Lemma. Alle nachfolgenden Felder exisitieren jeweils einmal für jede Analyse.

DerComp

Analyse ist ein derivationelles Kompositum

Comp

Analyse ist ein normales Kompositum

Def

Default-Analyse

Imm

Segmentierung

ImmClass

Folge der Segmentklassen

ImmAllo

Stamm ist nicht Grundformstamm

ImmOpac

opaque Zusammensetzung

ImmUml

umgelauteter Stamm

StrucLab

Strukturierte Segmentierung

StrucAllo

siehe ImmAllo

StrucOpac

siehe ImmOpac

StrucUml

siehe ImmUml

Sepa

abtrennbares Verbpräfix

InflPar

Flexionsparadigma

A	adjektivisch flektiertes Substantiv
I	flektiert, jedoch unklassifiziert
U	unflektiert
i...	irreguläres Verb
r1	reguläres Verb
r2	reguläres Verb mit auf Dental endendem Stamm
r3	reguläres Verb mit auf -el endendem Stamm
r4	reguläres Verb mit auf -er endendem Stamm
r5	reguläres Verb mit auf Vokal endendem Stamm
r6	reguläres Verb mit auf Sibilant endendem Stamm
S...	Singularflexion des Substantivs
P...	Pluralflexion des Substantivs

InflVar

alternative Flexionen

Inhalt

Beispiel: Syntax

IdNum

Nummer des Lemmas in durchlaufender Zählung

Head

Oberfläche des Lemmas (ohne Diakritika)

Mann

Frequenz im Mannheim-Korpus

ClassNum

Wortklasse (numerisch)

Substantiv
Adjektiv
Quantifizierendes Determinativ/Numeral
Verb
Determinativ
Pronomen
Adverb
Präposition
Konjunktion
Interjektion

GendNum

Genus (numerisch)

1 maskulin
2 feminin
3 neutral
12 maskulin/feminin
13 maskulin/neutral
21 feminin/maskulin
213 feminin/maskulin/neutral
23 feminin/neutral
31 neutral/maskulin
32 neutral/feminin

PropNum

Eigennamenstyp, numerisch

geographische Namen
Personennamen
Firmen- oder Produktnamen

SingTant

nur Singularform verwendet

PlurTant

nur Pluralform verwendet

AuxNum

im Perfekt verwendetes Auxiliarverb, numerisch:

1 haben
2 sein
12 haben/sein

SubClassVNum

Verbtyp (numerisch)

Auxiliarverb (haben)
Kopulaverb (bleiben)
unpersönliches Verb (regnen)
Modalverb (dürfen)
lexikalisches Verb (abwaschen)
reflexives lexikalisches Verb (sich beherrschen)

CompComp

In diesem und den nachfolgenden Comp-Feldern wird sehr detailliert die Komplementierbarkeit des Verbs kodiert. Dabei werden Aspekte wie obligatorische versus mögliche Komplementierung, verschiedene Komplementtypen (Nominalphrasen in verschiedenen Kasus, Präpositionalsphrasen, adverbiale Ergänzungen, Infinitvergänzungen etc.) sowie noch weitere Subkategorisierungen. Das Format ist sehr komplex, daher wird auf eine genaue Darstellung verzichtet.

CompEsSubj

CompSubj

CompAcc

CompSecAcc

CompDat

CompGen

CompPrep

CompSecPrep

CompAdv

Grad

Steigerbarkeit von Adjektiven

Kode	Bedeutung	Beispiel
P	nicht steigerbar	übrig
PC	nur Komparativsteigerung	ratsam
PS	nur Superlativsteigerung	ureigen
PCS	voll steigerbar	ulkig

CardOrdNum

Numeraltyp (numerisch)

Kode	Bedeutung	Beispiel
1	Kardinalzahl	acht
2	Ordinalzahl	achte
3	Fraktion	achtel
4	klassifikatorisch	achterlei
5	multiplikativ	achtfach

SubClassPNum

Pronomentyp

Kode	Bedeutung	Beispiel
1	Personalpronomen	du
2	Demonstrativpronomen	dieser
3	Possessivpronomen	dein
4	Relativpronomen	der
5	Interrogativpronomen	welcher
6	Reflexivpronomen	sich
7	reziprokes Pronomen	einander
8	unbestimmt	wenig

Case

von Präposition regierter Kasus, numerisch

Kode

Bedeutung

Beispiel

2

Genitiv

wegen

3

Dativ

mit

34

Dativ oder Akkusativ

an

4

Akkusativ

durch

Kode	Bedeutung	Beispiel
2	Genitiv	wegen
3	Dativ	mit
34	Dativ oder Akkusativ	an
4	Akkusativ	durch

Markierungssprachen ('mark-up'): HTML, XML, SGML

HTML: Hypertext Mark-up Language. Eine Teilmenge von SGML, speziell für WWW-Seiten
XML: Extensible Markup Language: Die WWW-(Meta-)Sprache und Dokumentenstruktursprache von morgen. Mächtiger als HTML, weniger komplex als SGML.
SGML: Standard Generalized Markup Language: Die umfassende Metasprache, die die Definition beliebiger Mark-up-Sprachen erlaubt (wie z.B. HTML)

Was ist 'mark-up', Markierung in diesem Sinne?

Der Anfang des Quelltextes dieser Seite (kann man in den meisten Browsern anschauen, in den Englischen Netscape-Versionen mit dem Befehl "View: Page Source") ist:

<!DOCTYPE HTML PUBLIC "-//SQ//DTD HTML 2.0 HoTMetaL + extensions//EN">
<!--This file created 19.6.2000 16:18 Uhr by Claris Home Page version 2.0-->
<HTML>
<HEAD>
   <TITLE>Vorl.: Lexikonorganisation mit SGML</TITLE>
   <META NAME=GENERATOR CONTENT="Claris Home Page 2.0">
   <X-SAS-WINDOW TOP=66 BOTTOM=870 LEFT=8 RIGHT=538>
   <X-SAS-REMOTESAVE SERVER="arvo.ifi.unizh.ch" USER="gschneid"
   DIR="~gschneid/HOMEPAGE/LexMorphVorl/" FILE="Lexikon12.SGML.html">
</HEAD>
<BODY>
 
<H1>Lexikonorganisation mit SGML und XML</H1>
 
<P><B>Morphologieanalyse und Lexikonaufbau (12. Vorlesung)</B></P>
 
<ADDRESS>Dozent: Gerold Schneider</ADDRESS>
 
<H3>&Uuml;bersicht</H3>
 
<UL>
   <LI><A HREF="#Markup">Mark-up Sprachen: HTML, XML, SGML</A>
   
   <LI><A HREF="SGML.summary.html">Einf&uuml;hrung in SGML</A>
   
   <LI><A HREF="#SGML-XML-Diff">Unterschiede zwischen SGML und
   XML</A>

und so weiter ....

Zusätzlich zum im Browser dargestellten Text enthält der Auszug SGML 'mark-up' tags in <eckigen Klammern>, z.B:

<HTML>: Spezifiziert, dass dieser SGML-Text in HTML, einer Teilmenge von SGML geschrieben ist.
<P>: Hier beginnt ein Paragraph
</P>: Hier endet ein Paragraph.
<B>, </B>: Anfang und Ende einer Passage im Fettdruck (Bold)
<H1>, </H1>: Anfang und Ende eines Titels der obersten Hierarchiestufe (1).
<UL>, </UL>: Anfang und Ende einer ungeordneten Liste
<LI>: Hier beginnt ein neues Listenelement (list item). Der Gebrauch von </LI> ist fakultativ.
<A HREF=Noch-ein-Text.html>Klicke hier </A> um zu Noch-ein-Text zu gelangen: Ein Verweis, Noch-ein-Text.html ist die Adresse des verlinkten Dokumentes, der Text bis </A> wird als Link dargestellt.

Die Bedeutung und die Anzahl der mark-up tags ist vordefiniert für HTML in SGML. SGML ist die Metasprache, die die Definition einer Mark-up-Sprache ermöglicht. Eine solche Definition steht in einer DTD (Document Type Description).

Kurze Einführung in SGML

Eine kurze Einführung in SGML (Deutsch, ca. 8 Seiten), von Martin Volk.
Eine längere Einführung in SGML (Englisch, ca. 25 Seiten; lokale Kopie). Das Original liegt unter: A gentle introduction to SGML.

Einige Klarstellungen zu SGML

SGML ist kein Textformatierungssystem. Es beschreibt die Textstruktur unabhängig von einem Formatierer (anders als HTML)
SGML ist weder ein Produkt noch eine Codiertabelle, sondern ein Metasprache.
SGML ist ein ISO Standard und ist damit "public-domain". Ebenso sind public-domain Parser für SGML-Dokumente verfügbar.
SGML ist eine Methode, wie eine Dokumentenstruktur festgelegt und überprüft werden kann.
SGML bietet ein eindeutiges Format. "SGML is a database language for text."

Wann sollte SGML eingesetzt werden?

wenn Dokumente innerhalb eines heterogenen Netzwerkes ausgetauscht werden.
wenn Dokumente in einer Datenbank organisiert werden sollen.
wenn Dokumente mehreren Aufgaben dienen und dementsprechend in mehreren Versionen vorliegen müssen.
wenn Dokumente über einen langen Zeitraum benötigt werden.
wenn Dokumente sehr groß sind.

Unterschiede zwischen SGML und XML

XML steht für "Extensible Markup Language". Der Erfinder von XML und eine wichtige Informationsquelle ist das W3C - das WWW-Consortium.

Hier steht eine gute Übersichtsseite über XML.

Als Einführung in XML empfehle ich "Introduction to XML" (lokale Kopie, Original).

Ziele von XML

Gegenüber SGML: einfacher zu verstehen und zu nutzen für den Menschen einfacher zu verarbeiten für den Computer
Gegenüber HTML: höhere Flexibilität und Mächtigkeit: viele Dokumentenformate möglich Browserunabhängigkeit Benutzerrdefinierte Darstellung möglich Semantisch strukturierte Suchmöglichkeiten

Besonderheiten von XML

Ein XML-Dokument kann ohne DTD geliefert werden (à la HTML: der XML-Browser wird über die Darstellung entscheiden aufgrund einer standardisierten default DTD und Benutzerdefinitionen)
Jedes XML-Dokument muss wohlgeformt sein. Dazu gehört:
- Wenn keine DTD angegeben wird, beginnt das Dokument mit der Erklärung "Standalone Document Declaration".
- Für jedes Anfangs-Tag gibt es ein Ende-Tag.
- Leere Elemente (d.h. Elemente ohne Inhalt, wie z.B. IMG oder HR) enden mit />.
- Alle Attributwerte stehen in Anführungszeichen.
- Alle Markup-Zeichen sind durch entsprechende Entities ersetzt.
- Die Elemente müssen sauber geschachtelt sein (d.h. überkreuzende Tags sind nicht erlaubt).
Zeichen können durch Unicode repräsentiert werden (ISO 10646).
Gross- und Kleinschreibung wird bei den Tags unterschieden.
Mächtigere Verweise als in HTML möglich (z.B. zwei-Wege-Links).

Lexikalische Datenbanken

Was ist eine lexikalische Datenbank?
Zu welchem Zweck werden lexikalische Datenbanken benutzt?
SGML und XML bieten sich an als Repräsentationssprache für lexikalische Datenbanken.

Einige der (erst relativ wenigen) lexikalischen Datenbanken in SGML:

Oxford English Dictionary (Liste der verwendeten SGML tags)
Middle English Compendium Dictionary (befolgt die gleich folgenden TEI Empfehlungen)
PAROLE: je etwa 20'000 Einträge mit: POS, Subkategorien, morphologische Merkmale, Subkategorisierung mit Tiefenkasus. Ziel: SGML Wörterbücher aller Sprachen der EU.

SGML-Lexikoneinträge nach der TEI-Empfehlung

Die Text-Encoding Initiative (TEI) ist ein Kommittee, das die drei grossen Fachorganisationen ACL (Association for Computational Linguistics), ALLC (Association for Literary and Linguistic Computing) und AHC (Association for Computers in the Humanities) im Jahre 1987 gegründet haben. Ziel: Erarbeitung von Empfehlungen für ein Standard-Datenformat zum Textaustausch in den Geisteswissenschaften. Diese Guidelines liegen jetzt als Buch [Sperberg-McQueen und Burnard 94] vor und sind auch über das WWW (TEI-Guidelines) abrufbar.

Gliederung der Guidelines 'TEI-Proposal 3'

Allgemeine Einführungen (Origin of the TEI, Introduction to SGML)
TEI-DTD
Core Tags and General Rules
- Characters and Character Sets
- The TEI Header
- Elements Available in All TEI Documents
- Default Text Structure
Base Tag Sets
- for Prose
- for Verse
- for Drama
- for Transcriptions of Speech
- for Print Dictionaries
- for Terminological Databases
Additional Tag Sets
- Linking, segmentation and alignment
- Simple Analytic Mechanisms (Linguistic Annotations)
- Feature Structures
- Certainty and Responsibility
- Transcriptions of Primary Sources
- Critical Apparatus
- Names and Dates
- Graphs, Networks and Trees
- Tables, Formulae and Graphics
- Language Corpora
Auxiliary Document Types
- The independent header
- Writing Systems Declaration
- Feature System Declaration
- Tag Set Documentation
Technical Topics
- Conformance
- Modifying the TEI DTD
- Rules for Interchange
- Multiple Hierarchies
- Algorithm for recognizing canonical references
Alphabetical Reference List of Classes, Entities, and Elements
Reference Material (e.g. How to obtain the TEI DTD?)
Bibliography and Index

Minimale TEI-Textstruktur

<tei.2>
<teiHeader>
  <fileDesc>
    <titleStmt>
      <title> The shortest TEI Document</title>
    <publicationStmt>
      <p> Published as part of TEI P2
    </publicationStmt>
    <sourceDesc>
      <p> no source 
    </sourceDesc>
  </fileDesc>
</teiHeader>
 
<text>
  <body>
  <p> Hello World! </p>
  </body>
</text>
</tei.2>

SGML-Tags, die in allen TEI-Dokumenten verwendbar sind.

<p> 		für Paragraphe
<emph>   	für Hervorhebungen
<q> 		für Zitate
<address>	für Adressen
<date>	   	für Datumsangaben
<abbr>	   	für Abkürzungen
<ptr>		für Verweise
<list>		für Aufzählungen
<l>	     	für Zeilen (z.B. in Gedichten)

Standard Textstruktur

<tei.2>
<teiHeader> ... </teiHeader>
<text>
  <front> 
  ... z.B. Vorwort eines Buches oder Gebrauchsanweisung für ein Lexikon
  </front>
  <body>
  <p> Hello World! </p>
  </body>
  <back>
  ... z.B. Anhänge
  </back>
</text>
</tei.2>

SGML-Tags für Lexika (Print Dictionaries)

Die TEI hat auch spezielle Tags erarbeitet, die zur Markierung von Wörterbüchern dienen. Sie finden sich in [Sperberg-McQueen und Burnard 94] (Kapitel 12) und im WWW lokal unter 12: Print Dictionaries (130 KByte; ca. 55 Seiten) und im Original unter 12: Print Dictionaries.

====== AUSZUG aus diesem Kapitel: =======

Overall Structure

<text> contains a single text of any kind, whether unitary or composite, for example a poem or drama, a collection of essays, a novel, a dictionary, or a corpus sample.

<front> contains any prefatory matter (headers, title page, prefaces, dedications, etc.) found before the start of a text proper.

<body> contains the whole body of a single unitary text, excluding any front or back matter.

<back> contains any appendixes, etc. following the main part of a text.

<div> contains a subdivision of the front, body, or back of a text.

<div0> contains the largest possible subdivision of the body of a text.

<div1> contains a first-level subdivision of the front, body, or back of a text (the largest, if <div0> is not used, the second largest if it is).

<entry> contains a reasonably well-structured dictionary entry.

<entryFree> contains a dictionary entry which does not necessarily conform to the constraints imposed by the <entry> element.

<superentry> groups successive entries for a set of homographs.

(...)

Groups and Constituents

As noted above, dictionary entries, and subordinate levels within dictionary entries, may comprise several constituent parts, each providing a different type of information about the word treated. The top-level constituents of dictionary entries are:

information about the form of the word treated (orthography, pronunciation, hyphenation, etc.)
grammatical information (part of speech, grammatical sub-categorization, etc.)
definitions or translations into another language
etymology
examples
usage information
cross-references to other entries
notes
entries (often of reduced form) for related words, typically called related entries

Any of the hierarchical levels ( <entry>, <entryFree>, <hom>, <sense>) may contain any of these top-level constituents, since information about word form, particular grammatical information, special pronunciation, usage information, etc., may apply to an entire entry, or to only one homograph, or only to a particular sense. The examples below illustrate this point.

The following elements are used to encode these top-level constituents:

<form> groups all the information on the written and spoken forms of one headword.
<gramGrp> groups morpho-syntactic information about a lexical item, e.g. <pos>, <gen>, <number>, <case>, or <itype> (inflectional class).
<def> contains definition text in a dictionary entry.
<trans> contains translation text and related information (within an entry in a multilingual dictionary).
<eg> (in a dictionary) contains an example text containing at least one occurrence of the word form, used in the sense being described; examples may be quoted from (named) authors or contrived.
<usg> contains usage information in a dictionary entry.
<xr> contains a phrase, sentence, or icon referring the reader to some other location in this or another text.
<etym> encloses the etymological information in a dictionary entry.
<re> contains a dictionary entry for a lexical item related to the headword, such as a compound phrase or derived form, embedded inside a larger entry.
<note> contains a note or annotation.

In a simple entry with no internal hierarchy, all top-level constituents appear at the <entry> level.

(...)

To simplify the electronic presentation of this document on systems with limited character sets, many of the pronunciations are presented using the transliteration found in the electronic edition of the Oxford Advanced Learner's Dictionary. Also, the middle dot in quoted entries is rendered with a full stop, while within the sample transcriptions hyphenation and syllabification points are indicated with |, regardless of their rendition in the source text. `` com.peti.tor /k@m"petit@(r)/ n person who competes. [OALD] ''

<entry>
  <form>
    <orth>competitor</orth>
    <hyph>com|peti|tor</hyph>
    <pron>k@m"petit@(r)</pron>
  </form>
  <gramGrp>
    <pos>n</pos>
  </gramGrp>
  <def>person who competes.</def>
</entry>

For the elements which appear within the <form> and <gramGrp> elements of this example, see section 12.3.1, Information on Written and Spoken Forms, and section 12.3.2, Grammatical Information.

As mentioned above, any top-level constituent can appear at any level when the hierarchical structure of the entry is more complex. The most obvious examples are <def> and <trans>, which appear at the <sense> level when several senses or translations exist: `` disproof (dIs"pru:f) n. 1. facts that disprove something. 2. the act of disproving. [CED] ''

<entry>
  <form>
    <orth>disproof</orth>
    <pron>dIs"pru:f</pron>
  </form>
  <gramGrp><pos>n</gramGrp>
  <sense n='1'><def>facts that disprove something.</def></sense>
  <sense n='2'><def>the act of disproving.</def></sense>
</entry>

In the following example, <gramGrp> is used to distinguish two homographs: `` bray /breI/ n cry of an ass; sound of a trumpet. ▪ vt [VP2A] make a cry or sound of this kind. [OALD] ''

<entry>
  <form>
    <orth>bray</orth>
    <pron>breI</pron>
  </form>
  <hom>
    <gramGrp><pos>n</pos></gramGrp>
    <def>cry of an ass; sound of a trumpet.</def>
  </hom>
  <hom>
    <gramGrp>
      <pos>vt</pos>
      <subc>VP2A</subc>
    </gramGrp>
    <def>make a cry or sound of this kind.</def>
  </hom>
</entry>

Information of the same kind can appear at different levels within the same entry; here, grammatical information occurs both at entry and homograph level. `` ca.reen /k@"ri:n/ vt,vi 1 [VP6A] turn (a ship) on one side for cleaning, repairing, etc. 2 [VP6A, 2A] (cause to) tilt, lean over to one side. [OALD] ''

<entry>
  <form>
    <orth>careen</orth>
    <hyph>ca|reen</hyph>
    <pron>k@"ri:n</pron>
  </form>
  <gramGrp>
    <pos>vt</pos>
    <pos>vi</pos>
  </gramGrp>
  <sense n='1'>
    <gramGrp><subc>VP6A</subc></gramGrp>
    <def>turn (a ship) on one side for cleaning,
         repairing, etc.</def>
  </sense>
  <sense n='2'>
    <gramGrp>
      <subc>VP6A</subc>
      <subc>VP2A</subc>
    </gramGrp>
    <def>(cause to) tilt, lean over to one side.</def>
  </sense>
</entry>

Alone among the constituent groups, <form> can appear at the <superEntry> level as well as at the <entry>, <hom>, and <sense> levels: `` a.ban.don 1 /@"b&nd@n/ v [T1] 1 to leave completely and for ever; desert: The sailors abandoned the burning ship. 2 ... abandon 2 n [U] the state when one's feelings and actions are uncontrolled; freedom from control: The people were so excited that they jumped and shouted with abandon / in gay abandon. [LDOCE] ''

<superEntry>
  <form>
    <orth>abandon</orth>
    <hyph>a|ban|don</hyph>
    <pron>@"b&amp;nd@n</pron>
  </form>
  <entry n='1'>
    <gramGrp> <pos>v</pos> <subc>T1</subc> </gramGrp>
    <sense n='1'><def>to leave completely and for ever ...</def>
      <!-- ... -->
    </sense>
    <sense n='2'>
      <!-- ... -->
    </sense>
  </entry>
  <entry n='2'>
    <gramGrp> <pos>n/pos> <subc>U</subc> </gramGrp>
    <def>the state when one's feelings and actions are
            uncontrolled; freedom from control</def>
    <!-- ... -->
  </entry>
</superEntry>

====== Ende des AUSZUGES =======

Korpora mit SGML oder XML Strukturierung

Neben lexikalischen Datenbanken stehen dem Linguisten heute auch viele literarische und historische Texte und Korpora mit SGML oder XML Strukturierung und Annotierung zur Verfügung. Siehe z.B. das Oxford Text Archive (OTA) , dessen Texte in der Regel die TEI befolgen.

Gerold Schneider, Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch

	Lemmata	Wortformen
Niederländisch	124136	381292
Englisch	52446	160594
Deutsch	51728	365530

Beispiele für CL Lexika I:

CELEX; TEI & SGML

Übersicht

CELEX-Überblick

Was ist CELEX?

Was steht in CELEX?

Form und Inhalt

Form

Inhalt

Beispiel: Morphologie

Inhalt

Beispiel: Syntax

Kode Bedeutung Beispiel 2 Genitiv wegen 3 Dativ mit 34 Dativ oder Akkusativ an 4 Akkusativ durch

Markierungssprachen ('mark-up'): HTML, XML, SGML

Was ist 'mark-up', Markierung in diesem Sinne?

Kurze Einführung in SGML

Einige Klarstellungen zu SGML

Wann sollte SGML eingesetzt werden?

Unterschiede zwischen SGML und XML

Ziele von XML

Besonderheiten von XML

Lexikalische Datenbanken

SGML-Lexikoneinträge nach der TEI-Empfehlung

Gliederung der Guidelines 'TEI-Proposal 3'

Minimale TEI-Textstruktur

SGML-Tags, die in allen TEI-Dokumenten verwendbar sind.

Standard Textstruktur

SGML-Tags für Lexika (Print Dictionaries)

Overall Structure

Groups and Constituents

Korpora mit SGML oder XML Strukturierung

Kode

Bedeutung

Beispiel

2

Genitiv

wegen

3

Dativ

mit

34

Dativ oder Akkusativ

an

4

Akkusativ

durch