Next: Fehler, die beim Stemming Up: Stemming-Algorithmen Previous: Stemming-Algorithmen

Was ist Stemming?

Die Idee des Stemmens besteht darin, die Performanz des Information Retrieval (IR) zu erhöhen, indem man mehrere syntaktische Wörter mit einer Grundform abdecken kann.

Stemming kann nicht auf alle Sprachen angewendet werden, beispielsweise Chinesisch kann nicht mit einem Stemmer bearbeitet werden, aber die indoeuropäischen Sprachen eigenen sich mehr oder weniger dazu. Wenn man annimmt, dass die Wörter von links nach rechts geschrieben werden, ist der Stamm auf der linken Seite und 0 oder mehr Suffixe können rechts an das Wort gehängt werden. Es können auch Präfixe links an den Wortstamm gestellt werden. (Bsp.: 'unhappiness': Präfix 'un', Stamm 'happy', 'y' wurde zu 'i', als das Suffix 'ness' angehängt wurde). Häufig verändern Präfixe die Bedeutung des Wortes in wesentlichen Teilen (Ausnahme: 'ge' im Deutschen). Das Ziel des Stemming ist es, Suffixe unter bestimmten Umständen zu entfernen. So haben zum Beispiel 'happy' und 'happiness' eine verwandte Bedeutung, und es ist erstrebenswert, beide syntaktischen Wörter auf die Grundform 'happi' zu reduzieren. Eher selten kommen Infixe vor (Bsp.: Deutsch und Holländisch).

Stemming (aka Suffix-Stripping) ist eine praktikable Hilfe für IR und hat mit Linguistik wenig zu tun. Die genaue Definition von Stamm, Wurzel und Affixe eines Wortes sind zwar in der Linguistik von Belang, aber in der IR nützen sie uns nicht viel.

Man kann drei Klassen von Suffixen definieren, nämlich d-, i- und a-Suffixe:

a-Suffix.: Ein a-Suffix ist ein enklitisches Wort, das an ein anderes Wort angehängt wurde, beispielsweise die Personalpronomen im Italienischen. Diese Suffixart kommt im Italienischen, Spanischen und Portugiesischen vor. Manchmal sind die Suffixe durch ein Trennzeichen vom Wort getrennt, was das abschneiden einfacher macht.
i-Suffix.: Ein i-Suffix ist ein Flektions-Suffix, beispielsweise 'ed' für die Vergangenheitsform im Englischen. Ein Suffix kann mehrere Funktionen erfüllen.
d-Suffix.: Das Derivations-Suffix (Ableitungs-Suffix) bildet aus einem Wort ein neues Wort, beispielsweise: 'keit' leitet im Deutschen ein Nomen von einem Adjektiv ab. D-Suffixe können mehrere Funktionen erfüllen. Das französische 'ement' kann normalerweise ein Adjektiv in ein Adverb, oder auch ein Verb in ein Nomen verwandeln.

Üblicherweise stehen i-Suffixe nach den d-Suffixen. Allerdings ist das nicht eine strikte Regel. Die normale Abfolge ist d, i, a. Üblicherweise wollen wir alle a-Suffixe, i-Suffixe und einige der d-Suffixe entfernen.

Wenn durch den Stemming-Prozess mehrere syntaktische Wörter auf den gleichen Stamm reduziert werden, nennt man das zusammenfallen (Engl.: conflate).

Next: Fehler, die beim Stemming Up: Stemming-Algorithmen Previous: Stemming-Algorithmen

Sonja Brodersen
2002-02-11