CLUE Computerlinguistik Uni Erlangen
Vorher Zurück Weiter
Weiter: Sechste Sitzung Zurück: Unterlagen Vorher: Fünfte Sitzung (Referat)

Sechste Sitzung - Referat: TEI für Wörterbücher

Zur Einführung in Text Encoding Initiative (TEI)

TEI sind Richtlinien für elektronische Kodierung und Austausch von Texten. Diese Richtlinien sind erweiterbar und modifizierbar. TEI ist eine SGML-Anwendung. Ihre Richtlinien sind eine Sammlung SGML-konformer Document Type Definitions (DTDs). TEI-Dokumente entsprechen dem ISO-Standard SGML. Es kommt von der Gemeinschaft der Forschenden und ist für die Gemeinschaft der Forschenden. TEI wurde mit dem Ziel entwickelt, einen optimalen zu finden, um weite Bereiche von textuellen Darbietungen logisch und inhaltsreich kodieren zu können.

Ziele der TEI:

Struktur eines TEI-Dokuments:

Hier sollte eine Grafik erscheinen, welche die Struktur eines TEI-Dokuments darstellt

oder

Hier sollte eine Grafik erscheinen, welche die Struktur eines TEI-Dokuments darstellt

Der Kopf eines TEI-Dokuments (TEI-Header)

Im TEI-Header ist die elektronische "Titelseite".
<teiHeader> besteht aus: <fileDesc>
<encodingDesc>
<profileDesc>
<revisionDesc>

<fileDesc> ist mit folgenden Unterelementen obligat:

Nachspann (back matter)

Vorspann (front matter)

Gliederung des body:

Hier sollte eine Grafik erscheinen, welche die Gliederungdes body darstellt

Ein <div> muß noch einmal untergliedert sein.

Was kann ein div enthalten:

Gliederungsarten (Band, Kapitel, Buch, Akt, Brief, ...) werden durch Attribute angezeigt.
Das ähnliche an den Texten:
<p> Paragraph als fundamentale Gliederung aller Prosatexte
<seg> Allgemeine Unterteilung, die durch das Attribut type inhaltlich bestimmt werden kann.
Das, worin sich die Texte unterscheiden:
Prosa braucht Paragraphen ...
Poesie braucht Zeilen, Versen und Strophen ...
Drama braucht Akte, Szenen, Regieanweisungen, Rollen, Sprecher ...
Wörterbücher verlangen Stichwort, Definition, Ethymologie, grammatische Angaben ...
Gesprochene Sprache braucht Sprecher, Zeiteinteilung, Gleichzeitigkeit ...
Beispiel für Gliederung des body:
Numerierte Unterteilungen darf man nur streng hierarchisch verwenden.
<body>
<div0 type="teil">
    <div1 type="kapitel">
        <p>Text im ersten Kapitel </p>
        <div2 type="unterkapitel">
            <p>Text im Unterkapitel</p>
        </div2>
    <div1>
</div0>
<div0>
    <p>Einleitender Text für zweiten Teil</p>
    <div1
        <p>Text im ersten Kapitel des zweiten Teils</p>
    </div1>
</div0>
</body>
    

TEI-Auszeichnungen (einige Beispiele):

Freie Bestandteile:
Listen: <list><item> ...
Bibliographie: <bibl> ...
Anmerkungen: <note> ...
Auszeichnungen von Textstellen:
die TEI-GUidelines <term>
die TEI-Guidelines <hi rend=italic> <forreign>
die TEI-Guidelines <hi rend=bold> <title>
<abbr expan="Text Encoding Initiative">
Interpretierende Elemente:
Hervorhebungen: <emph> <hi> <foreign> <distinct> <term> <gloss> <mentioned>
Zitate: <q> <quote> <cit> <socolled>
Eigennamen: <rs> <name>
Daten: <address> <date> <time> <num> <measure> ...
Editorische Eingriffe: <sic> <corr> <reg> <orig> <gap> ...
Abkürzungen: <abbr> <expan>
Querverweise: <ptr> <ref> ...
Registereinträge: <index> ...

Die Basisgruppen der TEI-Auszeichnungen

TEI.prose
TEI.verse
TEI.drama
TEI.spoken
TEI.dictionaries
TEI.terminologie
TEI.general
TEI.mixed

TEI für Wörterbücher

Schwierigkeiten bei der Kodierung eines Wörterbuches:

Zu den Problemen, denen man bei Wörterbuchauszeichnung begegnet gehören:
typographische Komplexität, Mehrschichtigkeit der Struktur, Informationsreichtum (schriftlich (Rechtsschreibung, Gebrauchsbeschreibung, Bedeutungsangaben), lautlich (Aussprache), visuell (Bilder)), Variabilität zwischen verschiedenen Wörterbüchern und innerhalb eines Wörterbuches.

Grobstruktur des Wörterbuches:

Ein <div> besteht aus <entry> (Artikel) oder <superentry> (Homographengruppe).

Struktur der Einträge und Hauptangaben:

Form des Wortes: <form>
Grammatische Eigenschaften: <gramGrp>
Bedeutung bzw. Übersetzungen: <def><trans>
Etymologie und Wortgeschichte: <etym>
Gebrauch an Hand von Beispielen: <usg><lbl>
<eg> (zeichnet ein Beispiel aus)
Syntaktische, semantische, soziolinguistische, geographische, sprachgeschichtliche, Einzelheiten ...
Weitere Angaben:
<note> steht für Anmerkungen
<xr><ptr><ref> kennzeichnen Querverweise
<re> hat einen Nebeneintrag (related entry) als Inhalt (N.B. keine Typologie der Nebeneinträge).

Zur Etymologie:

<etym> - faßt alle Eingaben zur Etymologie innerhalb eines Wörterbucheintrags zusammen
<lang> - Sprachangabe innerhalb der etymologischen Erklärungen
<date> - Datumsangabe
<mentioned> - übertragene Bedeutung
<gloss> - Erklärung der Definition
<pron> - Aussprache
<usg> - Sprachgebrauch
<lbl> - Termini zur Beschreibung des Sprachgebrauchs (z.B. "synonym", "Abkürzung für", "ungefähr" etc.)

Zur Forminformation:

<form> - faßt alle Informationen zur geschriebenen oder gesprochenen Form zusammen
<orth> - orthographische Form
<pron> - Aussprache
<hyph> - Silbentrennung
<syll> - Silbeneinteilung
<stress> - Betonung

Grammatische Beschreibung:

Einzelne Wortformen:
<gram> - grammatische Angaben
<gen> - Genus
<number> - Numerus
<case> - Kasus
<per> - Person
<tns> - Tempus
<mood> - Modus
Beschreibung des Wortes:
<gramGrp> - faßt die grammatischen Angaben zusammen
<gram> - grammatische Angaben
<itype> - Fleksionsart
<pos> - Wortart (part of speech)
<subc> - Unterkategorien, weitere Differenzierungen (z.B. intransitiv/transitiv)
<colloc> - Kontext
Ein Belegbeispiel besteht aus:
<q> - Zitat, Wörtliche Rede oder
<quote> - (erfundenes) Anwendungsbeispiel oder
<cit> - Belegbeispiel mit Quellenangabe (<q> oder <quote> mit <bibl> zusammen)

Beispiele nr. 1

Beispiel Prosatext:
<div type="teil">
<head>Überschrift Teil 1</head>
      <div type="kapitel">
      <head>Überschrift Kapitel 1</head>
      <p>Text ...</p><p>.....</p><p>....</p>
      </div>
      <div type="kapitel">
      <p>......</p>
</div>
    
Beispiel Briefedition:
<div type="band">
      <div type="brief">
      <p>Text ...</p><p>.....</p><p>....</p>
      </div>
      <div type="brief">
      <p>......</p>
      </div>
</div>
    

Ein komplettes Beispiel (Bsp. 2):

<!DOCTYPE TEI.2 system "tei2.dtd" [
<!ENTITY % TEI.prose "INCLUDE">  ]  >

<tei.2>

<teiHeader>
<fileDesc>
    <titleStmt>
         <title>Kurzes Beispiel eines elektronisches Textes</title>
    </titleStmt>
    <publikationStmt>
         <p>Unveröffentlichtes Dokument</p>
    </publikationStmt>
    <sourceDesc>
         <p>Keine Vorlage, direkt elektronisch erstellt.</p>
    </sourceDesc>
</fileDesc>
</teiHeader>

<text><body>
<p>Eines der kürzesten TEI-Dokuments, die es gibt.</p>
</      body></text>

</tei.2>
    

Beispiel zur Benutzung von Zitaten:

Er sagte: "Das kenne ich!", und wollte seine
"Bildung" zum Ausdruck bringen indem er
schrieb: "Sein oder nicht sein, das ist hier die
Frage".
Er sagte: <q>Das kenne ich!</q>, und wollte seine
<soCalled>Bildung</soCalled> zum Ausdruck bringen indem er
schrieb: <quote>Sein oder nicht sein, das ist hier die
Frage</quote>.
    

Beispiel zur Forminformation:

<form>
     <orth>ALLTAGSLEBEN</orth>,
     <lbl>auch</lbl)
     <orth>alltagsleben<(orth>
</form>
    

Beispiel zur grammatischen Beischreibung:

<gramGrp>
     <number>plur.</number>
     <gen>n.<gen>
</gramGrp>
oder:
<gramGrp>
     gram type="num">plur.</gram>
     gram type="gen">n.</gram>
</gramGrp>
    
<def>gewöhnlicher durchschnittlicher lebenslauf; tägliche realität</def>
    

Vorher Zurück Weiter
Weiter: Sechste Sitzung Zurück: Unterlagen Vorher: Fünfte Sitzung (Referat)
Oliver Lorenz Jörg Schreiber
zuletzt geändert am 14. Juli 1998