[ Weiter ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]
Klassische Klassifikationstasks
Definition 8.5.1 (Textklassifikation). Die Texte einer Textkollektion sollen einer oder mehreren Klassen eines meist hierarchisch aufgebauten Klassifikationssystems zugeordnet werden.
Beispiel 8.5.2 (Reuters Task).
Zeitungsnachrichten sollen in die Rubriken wie Politik, Wirtschaft etc. eingeordnet werden. Eine eher
leichte Aufgabe, welche zu fast 90% gelöst werden kann mit lernenden Verfahren.
Beispiel 8.5.3 (Message Routing).
Zuordnen (ev. an den Papierkorb) von elektronischen Dokumenten an ihre Adressaten aufgrund des
Inhalts. Mitteilungsdienste, Kundenanfragen usw.
Spam vs. Nicht-Spam
Eine der populärsten Textklassifikationsaufgaben zur Zeit ist die Einteilung von E-Mail in die Kategorie Spam.
Fast alle Methoden der Textklassifikationsstradition wurden auf diese Problem angewendet. Erfolgreich sind insbesondere statistische und lernende Systeme.
Clustering (Gruppenbildung)
Im Gegensatz zur Klassifikation über vorgegebenen Kategorien werden beim Clustering
Textkollektionen nur auf Grund inhärenter Merkmale gruppiert, sodass die Texte innerhalb eines
Clusters möglichst ähnlich (homogen) sind und zwischen den Clustern möglichst klare Unterschiede
bestehen.
Beispiel 8.5.4 (Suchmaschine mit Clustering).
Eine Anwendungsmöglichkeit von Clustering ist es, Suchresultate nach “Themen” zu clustern:
http://clusty.com/
[ Weiter ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]