Tabellarisch: jeder Eintrag besteht aus einer festgelegten Sequenz von Feldern, wobei jedes Feld eine festgelegte Bedeutung hat. Der Zugriff erfolgt über die Feldnummer.
Vorteil: sehr einfache Verarbeitung.
Nachteile:
Attributiert: der Zugriff auf die verschiedenen Informationen im Eintrag erfolgt über Schlüssel (= Attributnamen), denen Werte zugeordnet sind; diese Werte können auch komplex (= geschachtelt) sein und verschiedene Datentypen enthalten.
Nachteil: aufwendigere Verarbeitung.
Vorteile:
7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y 19\Abart\7\Z\1\Y\Y\Y\abart\V\N\N\N\(((ab)[V|.V],((Art)[N])[V])[V])[N]\N\N\N\N\S3/P3\N [Surface: [Lemma: "aas"], Form: [POS: Substantive, Combi: [SgDecl: Sg_e_s, PluralSx: Pl_e, PlDatSx: yes], Syn: [Gender: Neuter]]]; [Surface: [Lemma: "abart"], Form: [POS: Substantive, Combi: [SgDecl: Sg_0, PluralSx: Pl_en], Syn: [Gender: Feminine]]];
SGML: Standard Generalized Markup Language; Metasprache zur Beschreibung von Dokumentbeschreibungssprachen; Beispiele: HTML, XML, PML, TEI.
TEI: Text Encoding Initiative; SGML-basierte Dokumentbeschreibungssprache für die Auszeichnung von Text; hat bereits Auszeichnungsformate für verschiedenste Textsorten, z.B.
ISO-8859-X: | Asiatische Sprachen: | |||||
Latin1 (Westeuropa) | BIG5 (Chinesisch) | viele alternative Kodierungen | ||||
Latin2 (Osteuropa) | EUC-TW (Chinesisch) | dieser und anderer Sprachen | ||||
Latin3 (Südeuropa) | GB2312 (Chinesisch) | |||||
Latin4 (Nordeuropa) | SHIFT-JIS (Japanisch) | |||||
Kyrillisch | EUC-JP (Japanisch) | |||||
Arabisch | ||||||
Griechisch | ||||||
Hebräisch | ||||||
Latin5 (Türkisch) | ||||||
Latin6 (Nordisch) |
Unicode ist der Versuch, möglichst alle Schriften möglichst aller Sprachen in einer Kodierung unterzubrigen. Dabei sind Aspekte zu beachten wie:
Direktionalität: Schreibrichtung Links nach Rechts, Rechts nach Links, Oben nach Unten, wechselnd, etc.
Zusammengesetzte Zeichen: Diakritika auf Basiszeichen (z.B. a + ¨ = ä; aus zwei oder mehr Teilzeichen zusammengesetzte Zeichen in Hangul (Koreanisch))
Andere Zeichen: Grafikzeichen (Rahmen etc.), diverse Sonderzeichen (z.B. Währungssymbole)
Zeichenanzahl: 16-Bit-Kodierung; daher potentiell 65536 Codepunkte; im Moment umfaßt Unicode ca. 38000 Zeichen