Sobald ein Übersetzungsprogramm nicht
mit einem Vollformen- Lexikon ausgestattet ist (wie z.B. unser kleines
Übersetzungsprogramm), muss zwischen dem Modul "Tokenizer" und dem
Modul "lexical look-up" eines solchen Programmes ein weiteres Modul eingebaut
werden, das Modul "Reduktion". Dieses Modul verarbeitet den Output des
Tokenizers, d.h. ein einzelnes Token, und liefert als Ergebnis den Input
für das Modul "lexical look-up".
Im Folgenden soll nun näher auf die
Anforderungen an dieses Modul eingegangen werden. Dabei werden wir Dir
einige Programme vorstellen, die diese Anforderungen auf verschiedenen
Wegen erfüllen.
Die Aufgabe dieses Moduls "Reduktion" ist
es, ein Token, d.h. eine X- beliebige Wortform auf ihren Eintrag im Lexikon
(Lemma) zurückzuführen. Dies scheint vorerst keine schwierige
Aufgabe zu sein. Wie Du aber schon allein anhand der Probleme des Beispieltextes
sehen wirst, ergeben sich schon hier Probleme, die alles andere als trivial
sind.
Nachfolgend findest Du verschiedene Varianten,
eine Wortform auf seinen Wörterbuch-Eintrag zurückzuführen.
Auch wenn alle Varianten das selbe Lemma als Output liefern, fallen die
Analysen unterschiedlich gründlich aus. So liefert uns eine echte
morphologische Analyse (z.B. GERTWOL) neben dem gesuchten Lemma auch einiges
an Zusatzinformation über die Wortform. Es ist insofern wenig verwunderlich,
dass eine Reduktion, welche neben dem gesuchten Lemma zusätzlich noch
morphologische Daten liefert, auch programmiertechnisch einiges anspruchsvoller
ist.
Online Porter Stemmer Hier kannst du online einen Stemmer ausprobieren, der nach dem Porter-Algorithmus in PROLOG implementiert wurde...
Vollständige Morphologieanalyse
Über die vollständige Morphologieanalyse
kannst du dich mittels der beiden folgenden Programmen informieren:
GERTWOL
(Demoversion des kommerziellen Morphologieanalyse-Systems).
Adjektiv-Check
(Programm von Martin Volk zur morphologischen Analyse deutscher Adjektive)
Zurück zur Startseite