8.5
 Textklassifikation

8.5.1
 Kategorisieren

Klassische Klassifikationstasks 

Definition 8.5.1 (Textklassifikation). Die Texte einer Textkollektion sollen einer oder mehreren Klassen eines meist hierarchisch aufgebauten Klassifikationssystems zugeordnet werden.

Beispiel 8.5.2 (Reuters Task).
Zeitungsnachrichten sollen in die Rubriken wie Politik, Wirtschaft etc. eingeordnet werden. Eine eher leichte Aufgabe, welche zu fast 90% gelöst werden kann mit lernenden Verfahren.

Beispiel 8.5.3 (Message Routing).
Zuordnen (ev. an den Papierkorb) von elektronischen Dokumenten an ihre Adressaten aufgrund des Inhalts. Mitteilungsdienste, Kundenanfragen usw.

Kategorisierung von E-Mail 

Spam vs. Nicht-Spam

Eine der populärsten Textklassifikationsaufgaben zur Zeit ist die Einteilung von E-Mail in die Kategorie Spam.

Fast alle Methoden der Textklassifikationsstradition wurden auf diese Problem angewendet. Erfolgreich sind insbesondere statistische und lernende Systeme.

8.5.2
 Clustering

Clustering (Gruppenbildung) 
Im Gegensatz zur Klassifikation über vorgegebenen Kategorien werden beim Clustering Textkollektionen nur auf Grund inhärenter Merkmale gruppiert, sodass die Texte innerhalb eines Clusters möglichst ähnlich (homogen) sind und zwischen den Clustern möglichst klare Unterschiede bestehen.

Beispiel 8.5.4 (Suchmaschine mit Clustering).
Eine Anwendungsmöglichkeit von Clustering ist es, Suchresultate nach “Themen” zu clustern: http://search.yippy.com