next up previous
Next: About this document ... Up: Stemming-Algorithmen Previous: Was ist Stemming?

Fehler, die beim Stemming passieren können

Man kann die Beziehung zwischen Begriffen und Dokumenten in einem IR-System folgendermassen beschreiben: Die Dokumente behandeln Konzepte und die Begriffe beschreiben die Konzepte. So kann ein Begriff sich auf mehrere Konzepte beziehen. Z.B. 'Bank' kann sich auf ein Finanzinstitut oder eine Sitzgelegenheit beziehen ('Bank' ist ein Homonym). Und ein Konzept kann durch verschiedene Begriffe umschrieben werden: 'Geld', 'Kapital' (Synonyme). Es ist also ein Viele-zu-Viele-Verhältnis zwischen einer Menge von Begriffen und einer Menge von Konzepten. Stemming macht nun eine Abbildung und reduziert dabei hoffentlich mehr Synonyme, als es die Anzahl der Homonyme erhöht. Stemming-Fehler können Homonyme produzieren, wobei zu beachten ist, dass jede Sprache ohnehin schon viele Homonyme besitzt.

Wörter, die keine Konzepte beschreiben, haben keinen Platz in dieser Begriffe-Konzept-Abbildung. IR kennt deshalb sogenannte Stoppwörter (wie Artikel, Präpositionen etc.). Stoppwörter können allerdings in Anfragen auf Phrasenebene wieder nützlich sein. Stoppwörter sollten nicht dem Stemming-Prozess unterzogen werden.

In der Literatur wird häufig der Unterschied zwischen 'under-stemming' (ein zu kleines Suffix wurde entfernt) und 'over-stemming' (zuviel wurde abgeschnitten) gemacht. Martin Porter schlägt vor, eine zusätzliche Unterscheidung zwischen 'mis-stemming' (falsches Stemmen, etwas abschneiden, was wie eine Endung aussieht, aber zum Stamm gehört) und 'over-stemming' (eine echte Endung abschneiden und damit ein Zusammenfallen von Wörtern produzieren, die eine unterschiedliche Bedeutung haben).

Ein Beispiel für 'mis-stemming': 'ly' in 'cheaply' ist eine echte Endung, die wir abschneiden kónnen. 'ly' in 'reply' ist keine Endung, sondern gehört zum Stamm.

Man kann versuchen, 'mis-' und 'over-stemming' mit Wörterbüchern zu reduzieren.

Es gibt zwei Arten von Stemmern, einerseits die algorithmischen Stemmer und andererseits die Stemmer, die auf einem Wörterbuch basieren.

Algorithmische Stemmer.
Algorithmische Stemmer sind sehr schlank und schnell. Trotz der Fehler, die durchaus auftauchen können, ergeben algorithmische Stemmer in der Praxis gute Resultate.
Wörterbuchbasierte Stemmer.
Stemmer, die auf einem Wörterbuch basieren, benötigen einen Wörterbuchunterhalt und sie müssen mit einer sich ständig verändernden Sprache mithalten können, was in der Praxis ein Problem ist.

'Under-stemming' ist ein Fehler, der an sich noch keinen IR-System schaden kann, das Resultat ist immer besser, als ohne Stemmer. 'Over-stemming' ist ein ernsthafteres Problem, aber auch dies kümmert uns nicht, solange nicht zwei Wörter unterschiedlicher Bedeutung zusammenfallen, und dieser Fall ist nicht allzu häufig.

Zusammenfassend kann man sagen, dass es vorkommt, dass Wörter zwar falsch gestemmt werden, aber nicht 'over-stemmed' und umgekehrt, dass Wörter zwar 'over-stemmed' werden, aber nicht mit andern Wörtern zusammenfallen, die eine andere Bedeutung haben. Dasselbe gilt für 'mis-stemming': Wenn Wörter zwar 'mis-stemmed' werden und mit andern Wörtern zusammenfallen, die aber nicht im IR-System vorkommen, ist noch keine negative Folge zu erwarten.

Allein 'mis-stemming' ist kritisch, aber dessen Vorkommen kann durch ein Wörterbuch reduziert werden. Diese Überlegungen vermögen vielleicht zu erklären, warum algorithmische Stemmingverfahren trotz allem so gute Ergebnisse liefern.


next up previous
Next: About this document ... Up: Stemming-Algorithmen Previous: Was ist Stemming?
Sonja Brodersen
2002-02-11