3.2
Exkurs: XML
XML (eXtensible Markup Language)
Definition 3.2.1. Der XML-Standard
http://www.w3.org/XML/ spezifiziert, wie wohlgeformte
XML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) deren Struktur
genauer vorgeschrieben und validiert
werden kann.
XML in der Texttechnologie
- Textbasiertes Format, das geeignet ist, Texte
und dazugehörige Metainformation
programm-unabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika,
Korpora und digitale Editionen)
- Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellen zum
Einlesen, Erstellen, Modifizieren von XML-Dokumenten
- Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
- Elemente
sind von Start-Tags
(“<p>”) und End-Tags
(“</p>”) begrenzt.
- Leere Elemente
können aus einem Tag bestehen (“<br/>”)
- Elemente dürfen hierarchisch ineinander verschachtelt
werden: <p><s>...</s></p>
- Jedes XML-Dokument hat genau ein Wurzelelement
: Z.B: <document>...</document>
- Attribute
eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag: <s
id="s2">
- Elemente können Zeichendaten
(d.h. normalen Text) enthalten: <w>are</w>
Zeichenreferenzen und Entity-Referenzen
Entitäten und Referenzen
- Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entities
bezeichnet, welche zwischen & und ; notiert werden
- Zeichenreferenzen
enthalten den numerischen Kode des bezeichneten Zeichens (#n=Hexadezimal)
Zeichen | Entität |
|
|
< | < |
" | " |
& | & |
Newline | 	 |
|