Das Reduzieren von Wortformen auf ihr Lemma

Sobald ein Übersetzungsprogramm nicht mit einem Vollformen- Lexikon ausgestattet ist (wie z.B. unser kleines Übersetzungsprogramm), muss zwischen dem Modul "Tokenizer" und dem Modul "lexical look-up" eines solchen Programmes ein weiteres Modul eingebaut werden, das Modul "Reduktion". Dieses Modul verarbeitet den Output des Tokenizers, d.h. ein einzelnes Token, und liefert als Ergebnis den Input für das Modul "lexical look-up".
Im Folgenden soll nun näher auf die Anforderungen an dieses Modul eingegangen werden. Dabei werden wir Dir einige Programme vorstellen, die diese Anforderungen auf verschiedenen Wegen erfüllen.
Die Aufgabe dieses Moduls "Reduktion" ist es, ein Token, d.h. eine X- beliebige Wortform auf ihren Eintrag im Lexikon (Lemma) zurückzuführen. Dies scheint vorerst keine schwierige Aufgabe zu sein. Wie Du aber schon allein anhand der Probleme des Beispieltextes sehen wirst, ergeben sich schon hier Probleme, die alles andere als trivial sind.
Nachfolgend findest Du verschiedene Varianten, eine Wortform auf seinen Wörterbuch-Eintrag zurückzuführen. Auch wenn alle Varianten das selbe Lemma als Output liefern, fallen die Analysen unterschiedlich gründlich aus. So liefert uns eine echte morphologische Analyse (z.B. GERTWOL) neben dem gesuchten Lemma auch einiges an Zusatzinformation über die Wortform. Es ist insofern wenig verwunderlich, dass eine Reduktion, welche neben dem gesuchten Lemma zusätzlich noch morphologische Daten liefert, auch programmiertechnisch einiges anspruchsvoller ist.

Online Porter Stemmer Hier kannst du online einen Stemmer ausprobieren, der nach dem Porter-Algorithmus in PROLOG implementiert wurde...

Vollständige Morphologieanalyse

Über die vollständige Morphologieanalyse kannst du dich mittels der beiden folgenden Programmen informieren:
GERTWOL (Demoversion des kommerziellen Morphologieanalyse-Systems).
Adjektiv-Check (Programm von Martin Volk zur morphologischen Analyse deutscher Adjektive)

Zurück zur Startseite
 
 
 

* * *