Vom Wissensmanagement bis zum E-Commerce reicht die Palette nutzbringender Anwendungen von Text Mining Software und Verfahren der Informationsextraktion. Dabei spielt es keine Rolle, ob die zu entdeckenden Informationen in den unzähligen Textdateien der eigenen Firma bzw. Institution oder in den unübersichtlichen Weiten des Internet lagern. Ziel ist es, die darin enthaltenen verwertbaren Informationen zu identifizieren, in gegebenenfalls neue Zusammenhänge zu bringen und für den Benutzer aufzubereiten.
Im Unterschied zu den klar strukturierten Informationen in Datenbanken, erscheinen Texte "unstrukturiert". Die sprachliche Formulierung macht die darin enthaltenen Informationen für Computer schlecht auffindbar und noch schlechter verarbeitbar. Um diese Informationen explizit zu machen, werden heute Techniken des Text Mining und der Informationsextraktion propagiert. Allerdings gibt es in diesem Bereich recht viel "sales hype" und manche der Produkte versprechen mehr, als sie halten.
Daher werden die grundlegenden Probleme und Techniken des Text Mining und der Informationsextraktion so beschrieben, dass die Teilnehmerinnen und Teilnehmer abschätzen können, welche Techniken in welcher Situation einsetzbar sind. Kommerzielle Produkte werden ebenfalls beschrieben und - soweit möglich - vorgeführt, aber das Schwergewicht des Seminars liegt auf der Vermittlung von produktübergreifendem Wissen mit einer gewissen Halbwertszeit. Dieses Wissen wird bei der Entscheidung über die Anschaffung entsprechender Software auch in der näheren Zukunft noch nützlich sein.
Eine klare Kategorisierung der verschiedenen Anwendungen in diesem Bereich dient als Grundlage zu einer Entscheidungsbildung. Hier sollen Fragen wie die folgenden beantwortet werden: Welche Anwendungsszenarien gibt es? Welche Text Mining Techniken gibt es? Für welche Problemlösungen sind sie einschlägig? In einem technischen Teil werden die einzelnen Komponenten dieser Anwendungen vorgestellt und die von ihnen zu lösenden Probleme, die verschiedenen Lösungen und deren Grenzen beschrieben. Anhand konkreter Systeme wird gezeigt, wie diese Komponenten zusammenspielen müssen, um die gewünschte Gesamtleistung im System zu erbringen.
Schliesslich wird auf einige weitergehende spezifische Anwendungsmöglichkeiten eingegangen: Das (halb-)automatische Beantworten von Kunden-E-Mail, das (halb-)automatische Generieren von FAQ-Listen aus Serviceberichten und das Beantworten von Benutzerfragen über maschinenlesbaren Handbüchern und in On-line-Hilfesystemen (Antwortextraktion). Diese in absehbarer Zukunft vermutlich wichtigen Anwendungen werden skizziert und z.T. anhand von Systemen aus der Forschung ansatzweise vorgeführtß. Die ausführliche Dokumentation der vorgeführten Systeme wird an alle Seminarteilnehmer ausgegeben.