Dritte Sitzung - Form des Lexikons

Form des Lexikons

Themenkomplexe:

Organisation und Zugriff (attributiert vs. tabellarisch)
Auszeichnung (SGML-basierte vs. proprietäre Auszeichnung)
Zeichensatzfragen (ASCII, ISO-8859-X, Unicode etc.)

Organisation und Zugriff

Tabellarisch: jeder Eintrag besteht aus einer festgelegten Sequenz von Feldern, wobei jedes Feld eine festgelegte Bedeutung hat. Der Zugriff erfolgt über die Feldnummer.

Vorteil: sehr einfache Verarbeitung.

Nachteile:

unübersichtlich,
unstrukturiert,
eventuell redundant.

Attributiert: der Zugriff auf die verschiedenen Informationen im Eintrag erfolgt über Schlüssel (= Attributnamen), denen Werte zugeordnet sind; diese Werte können auch komplex (= geschachtelt) sein und verschiedene Datentypen enthalten.

Nachteil: aufwendigere Verarbeitung.

Vorteile:

übersichtlich,
weniger redundant,
die Daten können in einer Art strukturiert werden, die den Charakter des zu beschreibenden Phänomens widerspiegelt.


7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y
19\Abart\7\Z\1\Y\Y\Y\abart\V\N\N\N\(((ab)[V|.V],((Art)[N])[V])[V])[N]\N\N\N\N\S3/P3\N

[Surface: [Lemma: "aas"],
 Form: [POS: Substantive,
        Combi: [SgDecl: Sg_e_s,
                PluralSx: Pl_e,
                PlDatSx: yes],
        Syn: [Gender: Neuter]]];
[Surface: [Lemma: "abart"],
 Form: [POS: Substantive,
        Combi: [SgDecl: Sg_0,
                PluralSx: Pl_en],
        Syn: [Gender: Feminine]]];

Auszeichnung

SGML: Standard Generalized Markup Language; Metasprache zur Beschreibung von Dokumentbeschreibungssprachen; Beispiele: HTML, XML, PML, TEI.

TEI: Text Encoding Initiative; SGML-basierte Dokumentbeschreibungssprache für die Auszeichnung von Text; hat bereits Auszeichnungsformate für verschiedenste Textsorten, z.B.

Prosa
Lyrik
Drama
gespr. Sprache
Wörterbücher
...

Mit SGML können eigene Dokumentbeschreibungssprachen erzeugt werden, die eventuell besser für das zu beschreibende Phänomen geeignet sind. Die Vorteile sind:

SGML ist standardisiert ==> leichter Datenaustausch
große Auswahl an bereits existierender Verarbeitungssoftware
Mit Hilfe von SGML können Beschreibungssprachen für beliebige Phänomene erzeugt werden.

Wenn in bestimmten Situationen auf SGML verzichtet werden muß (z.B. weil verwendete Software die Eingabe in einem bestimmten Format erwartet), so können auch proprietäre Formate zum Einsatz kommen (wie z.B. bei Malaga-Lexika).

Nachteil: erschwerter Datenaustausch (da kein standardisiertes Format).
Vorteil: das proprietäre Format ist eventuell optimal an die verwendete Software angepaßt.

Zeichensatzfragen

Intern werden im Computer alle Daten als Bitmuster (= Zahlen) kodiert.
Welche Zahl wird welchem Buchstaben zugeordnet?
ASCII: am weitesten verbreitete Kodierung; hat mehrere Mängel:
- nur für die lateinische Schrift geeignet,
- kodiert nur die 26 im Englischen gebräuchlichen Buchstaben.
Daher existieren diverse Standards für die Kodierung anderer Sprachen.

ISO-8859-X:	Asiatische Sprachen:
Latin1 (Westeuropa)	BIG5 (Chinesisch)	viele alternative Kodierungen
Latin2 (Osteuropa)	EUC-TW (Chinesisch)	dieser und anderer Sprachen
Latin3 (Südeuropa)	GB2312 (Chinesisch)
Latin4 (Nordeuropa)	SHIFT-JIS (Japanisch)
Kyrillisch	EUC-JP (Japanisch)
Arabisch
Griechisch
Hebräisch
Latin5 (Türkisch)
Latin6 (Nordisch)

Unicode ist der Versuch, möglichst alle Schriften möglichst aller Sprachen in einer Kodierung unterzubrigen. Dabei sind Aspekte zu beachten wie:

Direktionalität: Schreibrichtung Links nach Rechts, Rechts nach Links, Oben nach Unten, wechselnd, etc.

Zusammengesetzte Zeichen: Diakritika auf Basiszeichen (z.B. a + ¨ = ä; aus zwei oder mehr Teilzeichen zusammengesetzte Zeichen in Hangul (Koreanisch))

Andere Zeichen: Grafikzeichen (Rahmen etc.), diverse Sonderzeichen (z.B. Währungssymbole)

Zeichenanzahl: 16-Bit-Kodierung; daher potentiell 65536 Codepunkte; im Moment umfaßt Unicode ca. 38000 Zeichen

Weiter: Vierte Sitzung (Referat) Zurück: Unterlagen Vorher: Zweite Sitzung

Oliver Lorenz Jörg Schreiber

zuletzt geändert am 14. Juli 1998