Einführendes

[ Weiter ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

8.1. Einführendes

Entstehung, Ziel und Status

Entstehung

mOLIFde ist als gemeinsame praktische Seminararbeit von Luzius Thöny und Thomas Kappeler unter der Leitung von S. Clematide im Sommersemester 2005 im Seminar "Lexikalische Ressourcen in der CL" entstanden.

Ziel

Im Projekt mOLIFde soll ein umfassendes und lexikographisch leicht erweiterbares System für Morphologieanalyse und -generierung für Deutsch entstehen, welches Flexion, Konversion, Komposition und produktive systematische Derivation beinhaltet.

Status

In den Hauptkategorien Nomen, Verb und Adjektiv ist die Flexion vollständig. Derivation für Verben (Verben mit abtrennbaren Präﬁxen), Substantive und Adjektive, Komposition nur für Substantive.

8.1.1. Prinzipien

Lexikographische Standards

Maximale Benützung lexikographischer Standards: ELM-DE und OLIF

Die Anzahl, Art und Anordnung der morphosyntaktischen Merkmale folgt den Speziﬁkationen des europäischen Lexikonstandards für Deutsch [EAGLES 1996], welcher weitestgehend das grosse STTS-Tagset [SCHILLER et al. 1999] realisiert. Die Kodes für die Flexionsklassen folgen dem Industriestandard OLIF, welcher Bedürfnisse aus Übersetzung und Terminologie abdeckt.

Minimale lexikographische Schnittstelle

Lemma-und-Paradigma-Ansatz

Die minimale Information für die Flexions-Morphologie:

graphematische Form des Lemmas (Stamm)
Kode für Flexionsparadigma und Verwendungsrestriktionen

Dies determiniert alle möglichen Wortformen und ihre morphosyntaktischen Eigenschaften vollständig und eindeutig.

Beispiel 8.1.1 (Lexikographische Schnittstelle in mOLIFde).

387 haus|halt: Starkes Verb mit abtrennbarem Verbpräﬁx (minimale Markierung durch Senkrechtstrich.)
531 obig: Adjektiv, welches nur attributiv und im Positiv verwendbar ist
111 Reichtum: Männliches Substantiv mit dem entsprechenden Paradigma

Hinweis

Die konkrete lexikographische Repräsentation der Lemmata ist dateibasiert. Alle Lemmata einer Flexionsklasse sind in einer eigenen Datei im Zweizeilen-Textformat (double-spaced text format) von xfst abgelegt. Inhalt der Datei lemma/verb/OLIF387Deriv.slex

h a u s | h a l t

a u s | h a l t

Eine andere lexikographischen Schnittstelle

Beispiel 8.1.2 (Schnittstelle in SMOR [SCHMID et al. 2004]). Lexikoneinträge beinhalten strukturelle (<PREF>), ﬂexionsbezogene (a:i), morphotaktische (<nativ>) und morphologische (<VVPres2t>) Information. Die Paradigmen ergeben sich teilweise aus mehreren Einträgen. Stammänderungen sind immer im Lexikon kodiert.

<Base_Stems>haus<PREF>:<><ge>ha:i<>:elt<V><base><nativ><VVPastStr>
<Base_Stems>haus<PREF>:<><ge>ha:ält<V><base><nativ><VVPres2t>
<Base_Stems>haus<PREF>:<><ge>halt<V><base><nativ><VVPP-en>
<Base_Stems>haus<PREF>:<><ge>halt<V><base><nativ><VVPres1>

<Base_Stems>Roß:s<>:s<>:e<NN><base><nativ><NNeut/Pl>

Hinweise

<> steht für ε, <…> für Mehrzeichensymbole in dem von SMOR verwendeten SFST-Format (Stuttgart Finite State Tools). : trennt wie in XFST obere und untere Sprache.

8.1.2. OLIF

OLIF: Ein Industriestandard für lexikalische Ressourcen

Open Lexicon Interchange Format

OLIF ist ein XML-basiertes Austauschformat mit folgenden Eigenschaften:

Konzeptbasierte Lexikoneinträge: Der übersetzungstechnische und terminologische Hintergrund von OLIF legen nahe, dass lexikalische Einheiten durch ihre semantische Funktion identiﬁziert werden.
Monolinguale morphologische, synaktische, semantische, anwendungsbereichbezogene Informationen mit einzelsprachlichen Speziﬁkationen zu den möglichen Kategorien und Werten.
Verknüpfungen von monolingualen Einheiten (cross-references ) für relationale lexikalische Semantik (Hypernymie etc.)
Verknüpfungen zwischen lexikalischen Einheiten verschiedener Sprachen (transfer information )

http://www.olif.net

OLIF-Flexionsklassen für Deutsch
Der OLIF-Standard umfasst eine Teil-Speziﬁkation für empfohlene Werte der Flexionsklassen des Deutschen (Values for Recommended Values OLIF Data Categories).

Es sind 702 (unmotiviert durchnummerierte) Klassen , welche (leider) nur durch ein Beispiel und eine minimale Beschreibung bestimmt sind.

Verteilung der Flexionsklassen auf die Hauptwortarten: Adjektive (34), Verben (388), Nomen (216).

pict

Abbildung 8.1:

OLIF-Flexions-Klassen für Deutsch

Konsequenz der arbiträren Nummerierung

Die morphologischen Eigenschaften der Klassen müssen aus dem Standard teilweise rekonstruiert werden!

Beispiele für Adjektivklassen
Welche Eigenheiten weisen die folgenden Lemmata wohl auf?

klein, sicher, arm, dunkel, bös, leicht, bang, schmal, allg., alt, hoch, nah, wild, gut, weise, teuer, geziert, Schweizer, rosa, groß, scheidend, naß, gesund, kraß

Wer es nicht weiss, kann es online herausﬁnden: http://www.cl.uzh.ch/siclemat/sprachanalyse/molif/

8.1.3. ELM-DE

Morphosyntaktische Merkmale in ELM-DE

pict

Abbildung 8.2:

ELM-DE: Ausschnitt der Merkmalwerte für Adjektive [EAGLES 1996, 52]

Legende zu ELM-DE für Adjektive

pos (part-of-speech): Wortart. adj = Adjektiv
type : Untertyp. qualif (qualiﬁcative meaning) = “normale” Adjektive, welche nicht von Partizipien, Ordinal- oder Bruchzahlen abgeleitet sind.
use : Verwendung im Satz. attr = attributiv oder nattr = nicht-attributiv, sprich prädikativ/adverbial.
inﬂexion : Flektierbarkeit eines Lemmas. non-inflect = Lemma kann keine Flexionsendungen tragen.
numb, gend, degr, case : Die klassischen Kategorien Numerus, Genus, Gradierung und Kasus.
inﬂect : Flexionstyp. strg (strong) = starke Flexion, weak = schwache Flexion, mixed = gemischte Flexion
Merkmale, welche nicht anwendbar sind bei einer Verwendung oder bei einem Lemma , tragen den Wert -- bzw. *

Nutzung von ELM-DE in mOLIFde

Jedes ELM-DE-Feature wird als Mehrzeichensymbol genommen, dem in Anlehnung an die Merkmalwert-Notation von ELM-DE ein “&” vorangestellt wird: "&pos"
Jeder ELM-DE-Value wird als Mehrzeichensymbol genommen, dem in Anlehnung an die Merkmalwert-Notation von ELM-DE ein “=” vorangestellt wird: "=adj"
Serialisierung : Die Merkmalwertpaare erscheinen immer in der Reihenfolge der Hierarchie von oben nach unten.

[ Weiter ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]