Computerlinguistik Uni Erlangen
Weiter:
Sechste Sitzung
Zurück:
Unterlagen
Vorher:
Fünfte Sitzung (Referat)
Sechste Sitzung - Referat: TEI für Wörterbücher
Zur Einführung in Text Encoding Initiative (TEI)
TEI sind Richtlinien für elektronische Kodierung und Austausch von
Texten. Diese Richtlinien sind erweiterbar und modifizierbar. TEI
ist eine SGML-Anwendung. Ihre Richtlinien sind eine Sammlung
SGML-konformer Document Type Definitions (DTDs). TEI-Dokumente
entsprechen dem ISO-Standard SGML. Es kommt von der Gemeinschaft
der Forschenden und ist für die Gemeinschaft der Forschenden. TEI
wurde mit dem Ziel entwickelt, einen optimalen zu finden, um weite
Bereiche von textuellen Darbietungen logisch und inhaltsreich
kodieren zu können.
Ziele der TEI:
- Austausch und Integration von Daten
- Unterstützung aller Texte, in allen Sprachen, aus
allen Zeiten
- Hinführung zum Problem: "Was ist zu
codieren?"
- Unterstützung der SpezialistInnen: Wie codiere ich
jede interessierende Information?
Struktur eines TEI-Dokuments:
oder
Der Kopf eines TEI-Dokuments (TEI-Header)
Im TEI-Header ist die elektronische "Titelseite".
<teiHeader> besteht aus:
| <fileDesc>
|
| <encodingDesc>
|
| <profileDesc>
|
| <revisionDesc>
|
<fileDesc> ist mit folgenden Unterelementen obligat:
- <titleStmt>
- <title>:Titel des elektronischen Dokuments
- <publikationStmt>
- <p>: Angaben zur Veröffentlichung des
elektronischen Dokuments
- <sourceDesc>
- <bibl>: Angaben zur Vorlage für das
elektronische Dokument
Nachspann (back matter)
- Anhang
- Glossar
- Endnoten
- Bibliographie
- Index
- Nachwort
Vorspann (front matter)
- Widmung
- Vorwort
- Danksagung
- Inhaltsverzeichnis
- Titelseiten
- Abstract
- ...
Gliederung des body:
Ein <div> muß noch einmal untergliedert sein.
Was kann ein div enthalten:
Gliederungsarten (Band, Kapitel, Buch, Akt, Brief, ...) werden
durch Attribute angezeigt.
Das ähnliche an den Texten:
<p>
| Paragraph als fundamentale Gliederung aller Prosatexte
|
<seg>
| Allgemeine Unterteilung, die durch das Attribut type
inhaltlich bestimmt werden kann.
|
Das, worin sich die Texte unterscheiden:
Prosa braucht Paragraphen ...
Poesie braucht Zeilen, Versen und Strophen ...
Drama braucht Akte, Szenen, Regieanweisungen, Rollen, Sprecher
...
Wörterbücher verlangen Stichwort, Definition,
Ethymologie, grammatische Angaben ...
Gesprochene Sprache braucht Sprecher, Zeiteinteilung,
Gleichzeitigkeit ...
Beispiel für Gliederung des body:
Numerierte Unterteilungen darf man nur streng hierarchisch verwenden.
<body>
<div0 type="teil">
<div1 type="kapitel">
<p>Text im ersten Kapitel </p>
<div2 type="unterkapitel">
<p>Text im Unterkapitel</p>
</div2>
<div1>
</div0>
<div0>
<p>Einleitender Text für zweiten Teil</p>
<div1
<p>Text im ersten Kapitel des zweiten Teils</p>
</div1>
</div0>
</body>
TEI-Auszeichnungen (einige Beispiele):
Freie Bestandteile:
Listen:
| <list><item> ...
|
Bibliographie:
| <bibl> ...
|
Anmerkungen:
| <note> ...
|
Auszeichnungen von Textstellen:
die TEI-GUidelines
| <term>
|
die TEI-Guidelines
| <hi rend=italic> <forreign>
|
die TEI-Guidelines
| <hi rend=bold> <title>
|
| <abbr expan="Text Encoding Initiative">
|
Interpretierende Elemente:
Hervorhebungen:
| <emph> <hi>
<foreign> <distinct>
<term>
<gloss> <mentioned>
|
Zitate:
| <q> <quote>
<cit> <socolled>
|
Eigennamen:
| <rs> <name>
|
Daten:
| <address> <date>
<time> <num>
<measure> ...
|
Editorische Eingriffe:
| <sic> <corr>
<reg> <orig>
<gap> ...
|
Abkürzungen:
| <abbr> <expan>
|
Querverweise:
| <ptr> <ref> ...
|
Registereinträge:
| <index> ...
|
Die Basisgruppen der TEI-Auszeichnungen
TEI.prose
TEI.verse
TEI.drama
TEI.spoken
TEI.dictionaries
TEI.terminologie
TEI.general
TEI.mixed
TEI für Wörterbücher
Schwierigkeiten bei der Kodierung eines Wörterbuches:
Zu den Problemen, denen man bei Wörterbuchauszeichnung
begegnet gehören:
typographische Komplexität, Mehrschichtigkeit der Struktur,
Informationsreichtum (schriftlich (Rechtsschreibung,
Gebrauchsbeschreibung, Bedeutungsangaben), lautlich (Aussprache),
visuell (Bilder)), Variabilität zwischen verschiedenen
Wörterbüchern und innerhalb eines Wörterbuches.
Grobstruktur des Wörterbuches:
- Vorspann (Titelblatt, Vorrede, usw.)
- Haupteil (Einträge)
- Nachspann (Anhänge, usw.)
Ein <div> besteht aus <entry>
(Artikel) oder <superentry> (Homographengruppe).
Struktur der Einträge und Hauptangaben:
Form des Wortes: <form>
Grammatische Eigenschaften: <gramGrp>
Bedeutung bzw. Übersetzungen:
<def><trans>
Etymologie und Wortgeschichte: <etym>
Gebrauch an Hand von Beispielen:
<usg><lbl>
<eg> (zeichnet ein Beispiel aus)
Syntaktische, semantische, soziolinguistische, geographische,
sprachgeschichtliche, Einzelheiten ...
Weitere Angaben:
<note> steht für Anmerkungen
<xr><ptr><ref>
kennzeichnen Querverweise
<re> hat einen Nebeneintrag (related entry) als
Inhalt (N.B. keine Typologie der Nebeneinträge).
Zur Etymologie:
<etym> -
| faßt alle Eingaben zur Etymologie innerhalb eines
Wörterbucheintrags zusammen
|
<lang> -
| Sprachangabe innerhalb der etymologischen
Erklärungen
|
<date> -
| Datumsangabe
|
<mentioned> -
| übertragene Bedeutung
|
<gloss> -
| Erklärung der Definition
|
<pron> -
| Aussprache
|
<usg> -
| Sprachgebrauch
|
<lbl> -
| Termini zur Beschreibung des Sprachgebrauchs
(z.B. "synonym", "Abkürzung
für", "ungefähr" etc.)
|
Zur Forminformation:
<form> -
| faßt alle Informationen zur
geschriebenen oder gesprochenen Form zusammen
|
<orth> -
| orthographische Form
|
<pron> -
| Aussprache
|
<hyph> -
| Silbentrennung
|
<syll> -
| Silbeneinteilung
|
<stress> -
| Betonung
|
Grammatische Beschreibung:
Einzelne Wortformen:
<gram> -
| grammatische Angaben
|
<gen> -
| Genus
|
<number> -
| Numerus
|
<case> -
| Kasus
|
<per> -
| Person
|
<tns> -
| Tempus
|
<mood> -
| Modus
|
Beschreibung des Wortes:
<gramGrp> -
| faßt die grammatischen Angaben zusammen
|
<gram> -
| grammatische Angaben
|
<itype> -
| Fleksionsart
|
<pos> -
| Wortart (part of speech)
|
<subc> -
| Unterkategorien, weitere
Differenzierungen (z.B. intransitiv/transitiv)
|
<colloc> -
| Kontext
|
Ein Belegbeispiel besteht aus:
<q> -
| Zitat, Wörtliche Rede oder
|
<quote> -
| (erfundenes) Anwendungsbeispiel oder
|
<cit> -
| Belegbeispiel mit Quellenangabe
(<q> oder <quote> mit
<bibl> zusammen)
|
Beispiele nr. 1
Beispiel Prosatext:
<div type="teil">
<head>Überschrift Teil 1</head>
<div type="kapitel">
<head>Überschrift Kapitel 1</head>
<p>Text ...</p><p>.....</p><p>....</p>
</div>
<div type="kapitel">
<p>......</p>
</div>
Beispiel Briefedition:
<div type="band">
<div type="brief">
<p>Text ...</p><p>.....</p><p>....</p>
</div>
<div type="brief">
<p>......</p>
</div>
</div>
Ein komplettes Beispiel (Bsp. 2):
<!DOCTYPE TEI.2 system "tei2.dtd" [
<!ENTITY % TEI.prose "INCLUDE"> ] >
<tei.2>
<teiHeader>
<fileDesc>
<titleStmt>
<title>Kurzes Beispiel eines elektronisches Textes</title>
</titleStmt>
<publikationStmt>
<p>Unveröffentlichtes Dokument</p>
</publikationStmt>
<sourceDesc>
<p>Keine Vorlage, direkt elektronisch erstellt.</p>
</sourceDesc>
</fileDesc>
</teiHeader>
<text><body>
<p>Eines der kürzesten TEI-Dokuments, die es gibt.</p>
</ body></text>
</tei.2>
Beispiel zur Benutzung von Zitaten:
Er sagte: "Das kenne ich!", und wollte seine
"Bildung" zum Ausdruck bringen indem er
schrieb: "Sein oder nicht sein, das ist hier die
Frage".
Er sagte: <q>Das kenne ich!</q>, und wollte seine
<soCalled>Bildung</soCalled> zum Ausdruck bringen indem er
schrieb: <quote>Sein oder nicht sein, das ist hier die
Frage</quote>.
Beispiel zur Forminformation:
<form>
<orth>ALLTAGSLEBEN</orth>,
<lbl>auch</lbl)
<orth>alltagsleben<(orth>
</form>
Beispiel zur grammatischen Beischreibung:
<gramGrp>
<number>plur.</number>
<gen>n.<gen>
</gramGrp>
oder:
<gramGrp>
gram type="num">plur.</gram>
gram type="gen">n.</gram>
</gramGrp>
<def>gewöhnlicher durchschnittlicher lebenslauf; tägliche realität</def>
Weiter:
Sechste Sitzung
Zurück:
Unterlagen
Vorher:
Fünfte Sitzung (Referat)
Oliver Lorenz
Jörg
Schreiber
zuletzt geändert am 14. Juli 1998