Die Idee des Stemmens besteht darin, die Performanz des Information Retrieval (IR) zu erhöhen, indem man mehrere syntaktische Wörter mit einer Grundform abdecken kann.
Stemming kann nicht auf alle Sprachen angewendet werden, beispielsweise Chinesisch kann nicht mit einem Stemmer bearbeitet werden, aber die indoeuropäischen Sprachen eigenen sich mehr oder weniger dazu. Wenn man annimmt, dass die Wörter von links nach rechts geschrieben werden, ist der Stamm auf der linken Seite und 0 oder mehr Suffixe können rechts an das Wort gehängt werden. Es können auch Präfixe links an den Wortstamm gestellt werden. (Bsp.: 'unhappiness': Präfix 'un', Stamm 'happy', 'y' wurde zu 'i', als das Suffix 'ness' angehängt wurde). Häufig verändern Präfixe die Bedeutung des Wortes in wesentlichen Teilen (Ausnahme: 'ge' im Deutschen). Das Ziel des Stemming ist es, Suffixe unter bestimmten Umständen zu entfernen. So haben zum Beispiel 'happy' und 'happiness' eine verwandte Bedeutung, und es ist erstrebenswert, beide syntaktischen Wörter auf die Grundform 'happi' zu reduzieren. Eher selten kommen Infixe vor (Bsp.: Deutsch und Holländisch).
Stemming (aka Suffix-Stripping) ist eine praktikable Hilfe für IR und hat mit Linguistik wenig zu tun. Die genaue Definition von Stamm, Wurzel und Affixe eines Wortes sind zwar in der Linguistik von Belang, aber in der IR nützen sie uns nicht viel.
Man kann drei Klassen von Suffixen definieren, nämlich d-, i- und a-Suffixe:
Üblicherweise stehen i-Suffixe nach den d-Suffixen. Allerdings ist das nicht eine strikte Regel. Die normale Abfolge ist d, i, a. Üblicherweise wollen wir alle a-Suffixe, i-Suffixe und einige der d-Suffixe entfernen.
Wenn durch den Stemming-Prozess mehrere syntaktische Wörter auf den gleichen Stamm reduziert werden, nennt man das zusammenfallen (Engl.: conflate).