CLUE Computerlinguistik Uni Erlangen
Vorher Zurück Weiter
Weiter: Vierte Sitzung (Referat) Zurück: Unterlagen Vorher: Zweite Sitzung

Dritte Sitzung - Form des Lexikons

Form des Lexikons

Themenkomplexe:

Organisation und Zugriff

Tabellarisch: jeder Eintrag besteht aus einer festgelegten Sequenz von Feldern, wobei jedes Feld eine festgelegte Bedeutung hat. Der Zugriff erfolgt über die Feldnummer.

Vorteil: sehr einfache Verarbeitung.

Nachteile:

Attributiert: der Zugriff auf die verschiedenen Informationen im Eintrag erfolgt über Schlüssel (= Attributnamen), denen Werte zugeordnet sind; diese Werte können auch komplex (= geschachtelt) sein und verschiedene Datentypen enthalten.

Nachteil: aufwendigere Verarbeitung.

Vorteile:


7\Aas\6\M\1\Y\Y\Y\Aas\N\N\N\N\(Aas)[N]\N\N\N\N\S1/P1\Y
19\Abart\7\Z\1\Y\Y\Y\abart\V\N\N\N\(((ab)[V|.V],((Art)[N])[V])[V])[N]\N\N\N\N\S3/P3\N

[Surface: [Lemma: "aas"],
 Form: [POS: Substantive,
        Combi: [SgDecl: Sg_e_s,
                PluralSx: Pl_e,
                PlDatSx: yes],
        Syn: [Gender: Neuter]]];
[Surface: [Lemma: "abart"],
 Form: [POS: Substantive,
        Combi: [SgDecl: Sg_0,
                PluralSx: Pl_en],
        Syn: [Gender: Feminine]]];

Auszeichnung

SGML: Standard Generalized Markup Language; Metasprache zur Beschreibung von Dokumentbeschreibungssprachen; Beispiele: HTML, XML, PML, TEI.

TEI: Text Encoding Initiative; SGML-basierte Dokumentbeschreibungssprache für die Auszeichnung von Text; hat bereits Auszeichnungsformate für verschiedenste Textsorten, z.B.

Mit SGML können eigene Dokumentbeschreibungssprachen erzeugt werden, die eventuell besser für das zu beschreibende Phänomen geeignet sind. Die Vorteile sind: Wenn in bestimmten Situationen auf SGML verzichtet werden muß (z.B. weil verwendete Software die Eingabe in einem bestimmten Format erwartet), so können auch proprietäre Formate zum Einsatz kommen (wie z.B. bei Malaga-Lexika).

Zeichensatzfragen

ISO-8859-X: Asiatische Sprachen:
Latin1 (Westeuropa) BIG5 (Chinesisch) viele alternative Kodierungen
Latin2 (Osteuropa) EUC-TW (Chinesisch) dieser und anderer Sprachen
Latin3 (Südeuropa) GB2312 (Chinesisch)
Latin4 (Nordeuropa) SHIFT-JIS (Japanisch)
Kyrillisch EUC-JP (Japanisch)
Arabisch
Griechisch
Hebräisch
Latin5 (Türkisch)
Latin6 (Nordisch)

Unicode ist der Versuch, möglichst alle Schriften möglichst aller Sprachen in einer Kodierung unterzubrigen. Dabei sind Aspekte zu beachten wie:

Direktionalität: Schreibrichtung Links nach Rechts, Rechts nach Links, Oben nach Unten, wechselnd, etc.

Zusammengesetzte Zeichen: Diakritika auf Basiszeichen (z.B. a + ¨ = ä; aus zwei oder mehr Teilzeichen zusammengesetzte Zeichen in Hangul (Koreanisch))

Andere Zeichen: Grafikzeichen (Rahmen etc.), diverse Sonderzeichen (z.B. Währungssymbole)

Zeichenanzahl: 16-Bit-Kodierung; daher potentiell 65536 Codepunkte; im Moment umfaßt Unicode ca. 38000 Zeichen


Vorher Zurück Weiter
Weiter: Vierte Sitzung (Referat) Zurück: Unterlagen Vorher: Zweite Sitzung
Oliver Lorenz Jörg Schreiber
zuletzt geändert am 14. Juli 1998