8.1.  Einführendes

Entstehung, Ziel und Status

Entstehung

mOLIFde ist als gemeinsame praktische Seminararbeit von Luzius Thöny und Thomas Kappeler unter der Leitung von S. Clematide im Sommersemester 2005 im Seminar "Lexikalische Ressourcen in der CL" entstanden.

Ziel

Im Projekt mOLIFde soll ein umfassendes und lexikographisch leicht erweiterbares System für Morphologieanalyse und -generierung für Deutsch entstehen, welches Flexion, Konversion, Komposition und produktive systematische Derivation beinhaltet.

Status

In den Hauptkategorien Nomen, Verb und Adjektiv ist die Flexion vollständig. Derivation läuft punktuell, Komposition nur für Substantive.

8.1.1.  Prinzipien

Lexikographische Standards

Maximale Benützung lexikographischer Standards: ELM-DE und OLIF

Die Anzahl, Art und Anordnung der morphosyntaktischen Merkmale folgt den Spezifikationen des europäischen Lexikonstandards für Deutsch [EAGLES 1996], welcher weitestgehend das grosse STTS-Tagset [SCHILLER et al. 1999] realisiert. Die Kodes für die Flexionsklassen folgen dem Industriestandard OLIF, welcher Bedürfnisse aus Übersetzung und Terminologie abdeckt.

Minimale lexikographische Schnittstelle

Lemma-und-Paradigma-Ansatz

Die minimale Information für die Flexions-Morphologie:

Dies determiniert alle möglichen Wortformen und ihre morphosyntaktischen Eigenschaften vollständig und eindeutig.

Beispiel 8.1.1 (Lexikographische Schnittstelle in mOLIFde).

Hinweis

Die konkrete lexikographische Repräsentation der Lemmata ist dateibasiert. Alle Lemmata einer Flexionsklasse sind in einer eigenen Datei im Zweizeilen-Textformat (double-spaced text format) von xfst abgelegt. Inhalt der Datei lemma/verb/OLIF387Deriv.slex

h a u s | h a l t  
 
a u s | h a l t

Eine andere lexikographischen Schnittstelle

Beispiel 8.1.2 (Schnittstelle in SMOR [SCHMID et al. 2004]). Lexikoneinträge beinhalten strukturelle (<PREF>), flexionsbezogene (a:i), morphotaktische (<nativ>) und morphologische (<VVPres2t>) Information. Die Paradigmen ergeben sich teilweise aus mehreren Einträgen. Stammänderungen sind immer im Lexikon kodiert.

<Base_Stems>haus<PREF>:<><ge>ha:i<>:elt<V><base><nativ><VVPastStr>  
<Base_Stems>haus<PREF>:<><ge>ha:ält<V><base><nativ><VVPres2t>  
<Base_Stems>haus<PREF>:<><ge>halt<V><base><nativ><VVPP-en>  
<Base_Stems>haus<PREF>:<><ge>halt<V><base><nativ><VVPres1>  
 
<Base_Stems>Roß:s<>:s<>:e<NN><base><nativ><NNeut/Pl>

Hinweise

<> steht für ε, <…> für Mehrzeichensymbole in dem von SMOR verwendeten SFST-Format (Stuttgart Finite State Tools). : trennt wie in XFST obere und untere Sprache.

8.1.2.  OLIF

OLIF: Ein Industriestandard für lexikalische Ressourcen

Open Lexicon Interchange Format

OLIF ist ein XML-basiertes Austauschformat mit folgenden Eigenschaften:

http://www.olif.net

OLIF-Flexionsklassen für Deutsch
Der OLIF-Standard umfasst eine Teil-Spezifikation für empfohlene Werte der Flexionsklassen des Deutschen (Values for Recommended Values OLIF Data Categories).

Es sind 702 (unmotiviert durchnummerierte) Klassen , welche (leider) nur durch ein Beispiel und eine minimale Beschreibung bestimmt sind. Verteilung der Flexionsklassen auf die Hauptwortarten: Adjektive (34), Verben (388), Nomen (216).


pict

Abbildung 8.1: OLIF-Flexions-Klassen für Deutsch


Konsequenz der arbiträren Nummerierung

Die morphologischen Eigenschaften der Klassen müssen aus dem Standard teilweise rekonstruiert werden!

Beispiele für Adjektivklassen
Welche Eigenheiten weisen die folgenden Lemmata wohl auf?

klein, sicher, arm, dunkel, bös, leicht, bang, schmal, allg., alt, hoch, nah, wild, gut, weise, teuer, geziert, Schweizer, rosa, groß, scheidend, naß, gesund, kraß

Wer es nicht weiss, kann es online herausfinden: http://www.cl.uzh.ch/siclemat/sprachanalyse/molif/

8.1.3.  ELM-DE

Morphosyntaktische Merkmale in ELM-DE


pict

Abbildung 8.2: ELM-DE: Ausschnitt der Merkmalwerte für Adjektive [EAGLES 1996, 52]

Legende zu ELM-DE für Adjektive

Nutzung von ELM-DE in mOLIFde