Zielsetzung und Inhalte

Vom Wissensmanagement bis zum E-Commerce reicht die Palette nutzbringen­der Anwendungen von Text Mining Software und Verfahren der Informationsex­traktion. Dabei spielt es keine Rolle, ob die zu entdeckenden Informationen in den unzähligen Textdateien der eigenen Firma bzw. Institution oder in den un­übersichtlichen Weiten des Internet lagern. Ziel ist es, die darin enthaltenen ver­wertbaren Informationen zu identifizieren, in gegebenenfalls neue Zusammen­hänge zu bringen und für den Benutzer aufzubereiten.

Im Unterschied zu den klar strukturierten Informationen in Datenbanken, erscheinen Texte "unstrukturiert". Die sprachliche Formulierung macht die darin enthaltenen Informationen für Computer schlecht auffindbar und noch schlechter verarbeitbar. Um diese Informationen explizit zu machen, werden heute Techniken des Text Mining und der Informationsextraktion propagiert. Allerdings gibt es in diesem Be­reich recht viel "sales hype" und manche der Produkte versprechen mehr, als sie halten.

Daher werden die grundlegenden Probleme und Techniken des Text Mining und der Informationsextraktion so beschrieben, dass die Teilnehmerinnen und Teilnehmer abschätzen können, welche Techniken in welcher Situation ein­setzbar sind. Kommerzielle Produkte werden ebenfalls beschrieben und - soweit möglich - vorgeführt, aber das Schwergewicht des Seminars liegt auf der Vermitt­lung von produktübergreifendem Wissen mit einer gewissen Halbwertszeit. Dieses Wissen wird bei der Entscheidung über die Anschaffung entsprechender Software auch in der näheren Zukunft noch nützlich sein.

Eine klare Kategorisierung der verschiedenen Anwendungen in diesem Bereich dient als Grundlage zu einer Entscheidungsbildung. Hier sollen Fragen wie die folgenden beantwortet werden: Welche Anwendungsszenarien gibt es? Wel­che Text Mining Techniken gibt es? Für welche Problemlösungen sind sie ein­schlägig? In einem technischen Teil werden die einzelnen Komponenten dieser Anwen­dungen vorgestellt und die von ihnen zu lösenden Probleme, die verschiede­nen Lösungen und deren Grenzen beschrieben. Anhand konkreter Systeme wird gezeigt, wie diese Komponenten zusammenspielen müssen, um die ge­wünschte Gesamtleistung im System zu erbringen.

Schliesslich wird auf einige weitergehende spezifische Anwendungsmöglichkei­ten eingegangen: Das (halb-)automatische Beantworten von Kunden-E-Mail, das (halb-)automatische Generieren von FAQ-Listen aus Serviceberichten und das Beantworten von Benutzerfragen über maschinenlesbaren Handbüchern und in On-line-Hilfesystemen (Antwortextraktion). Diese in absehbarer Zukunft ver­mutlich wichtigen Anwendungen werden skizziert und z.T. anhand von Systemen aus der Forschung ansatzweise vorgeführtß. Die ausführliche Dokumentation der vorgeführten Systeme wird an alle Seminarteilnehmer ausgegeben.