Universität Zürich

Institut für Informatik und Philosophische Fakultät

Abteilung Computerlinguistik

Seminar in Computerlinguistik

Semantikrepräsentation für Antwortextraktion

Prof. Dr. Michael Hess

lic. phil. Simon Clematide


Sommersemester 2001

Inhalt

Das von uns entwickelte ``Universitäts-Informations-Systems'' (siehe UIS resp. LUIS) verwendet noch kaum semantische Konzepte zum Lokalisieren von Antworten in Texten, wie dies z.B. in ExtrAns schon geschieht. Im Seminar sollen konkrete Schritte auf eine entsprechende Erweiterung von UIS hin unternommen werden.

Dozenten

Prof. Dr. Michael Hess

Für Fragen etc. bitte E-Mail hess@ifi.unizh.ch verwenden (und nur in Notfällen Telefon)
Sprechstunde: Mittwoch (für Seminar bevorzugt!) oder Dienstag 14.00-15.00 (bitte bei Corinne Maurer, Telefon 635 43 31, anmelden!)

lic. phil. Simon Clematide

Sprechstunde: Mittwoch 8.30-10.00 (Anmeldung per E-Mail siclemat@ifi.unizh.ch oder Telefon 635 67 20)

Zeit und Ort der Veranstaltung

Ort: Kollegiengebäude Uni Zentrum Raum 321

Zeit: Mittwoch, 16.15-18.00

Beginn: 4. April 2001

Hinweis: Besuch der Vorbesprechung (mit Themenverteilung) am 7. Februar 2001, 17.15, Institut für Informatik, Raum H-35, war erforderlich.

Anforderungen

Bestandenes Akzess-Examen in Computerlinguistik

Um einen Seminarschein zu erwerben, wird wie üblich Anwesenheit während 80% der Sitzungen sowie eine schriftliche Arbeit (im Umfang von 15 bis 20 Seiten) und eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) verlangt (für kleinen Schein: nur mündliche Präsentation). Zur mündlichen Präsentation gehört ein Handout (1 bis max. 2 Seiten), das die wichtigsten Begriffe, Thesen, Literaturhinweise enthält.

Ressourcen

Ressourcen (Web-Seiten, Artikel etc.) finden sich hier

Einige zusätzliche allgemeinere Literaturhinweise auch hier. (Um PostScript-Dateien (Endung .ps) betrachten resp. ausdrucken zu können eignet sich das Programm GhostView resp. GhostScript. Wir haben aber versucht, alles in PDF zu konvertieren.)

In der IFI-Bibliothek gibt es einen kleinen Handapparat.

Programm

Alle Links sollten jetzt funktionieren, ansonsten bitte Mail an S. Clematide.

Datum	Thema	ReferentInnen	Einstiegsunterlagen/Material
4.4.2001	Einführung		Beurteilungskriterien Keyword-Spotting (tokenizer, keyword)
11.4.2001	Übersichtsreferat: Ansätze und Formen der Informationswiedergewinnung Fragestellung: Das Problem der Wiederfindung von Informationen in textueller Form wurde mit unterschiedlichsten Ansätzen zu lösen versucht. Ziel dieser Sitzung ist es, einen Überblick darüber zu geben, und einigen Begriffen wie Information Retrieval, Document Retrieval, Text Retrieval, Passage Retrieval, Information-Extraction, Antwortextraktion usw. eine genauere Bestimmung und beispielhaftes Verständnis zu geben.	Alexandra Bünzli Canan Salda	ExtrAns Paper zu Antwort Extraktion Glossar Handout Seminararbeit A. Bünzli: "IR-Eine Einführung in das Indexieren"
18.4.2001	Übersichtsreferat: Informationsextraktion: Ansätze und Anwendungen Fragestellung: Mit dem Begriff "Informationsextraktion aus Texten" sind engere und weiter gefasste Interpretationen verbunden. Insbesondere im Rahmen der Message Understanding Conferences (MUC) wurden klar spezifizierte Teilaufgaben (sog. Tasks), die mit Informationsextraktion verbunden sind, definiert. Es geht darum, über diese Aktivitäten, Ansätze und Anwendungen einen Überblick zu geben und die neueren Entwicklungen insbesondere in der Text Retrieval Conference (TREC) aufzuzeigen.Darüber hinaus soll Bezug zu Aufgaben und Ansätzen geliefert werden, die unter den Stichwörtern Text Mining, Text Routing, Text Filtering, Text Clustering abgehandelt werden.	Yvonne Archer Christine Surer	TREC8-Filtering Übersicht
25.4.2001	Fallbeispiel: Leistungs- und Fehleranalyse von LUIS/ExtrAns Fragestellung: Die Leistungsfähigkeit unserer hausgemachten Antwortextraktionssysteme ("ExtrAns" für englische UNIX-Handbuchseiten, "LUIS" für deutsche Universitätsadministrativa) soll genauer unter die Lupe genommen werden.Für die Leistungsmängel von LUIS soll eine Kategorisierung gemacht werden, um eine klare Prioritätenliste von notwendigen Verbesserungen zu erhalten. Zudem soll dabei eine Sammlung von (realistischen) Fragen bzw. Fragetypen entstehen mit den momentan gefundenen Resultaten und in Zukunft idealerweise zu findenden Resultaten.	Franco Colombo Roberto Nespecca	FAQ FINDER
2.5.2001	Untersuchung: Die Lehren aus dem Q&A-Track der TREC 8/9 Fragestellung: Der Q&A-Track (Frage-Antwort-Teilaufgabe) der 8. TREC war der erste Versuche einer grossen vergleichenden Evaluation verschiedenster Antwortextraktionssysteme. Es wurde von einfachsten stichwortbasierten Methoden bis zu aufwendigen linguistisch basierten Systeme so ziemlich alles versucht. Was sind die Lehren aus diesem ersten Wettbewerb für die Disziplin als Ganzes und für das deutschsprachige(!) LUIS insbesondere? Was brachte TREC 9 für Fortschritte?	Cornelia Steinmann	Archiv der Diskussion (als zip-Archiv) The TREC-8 Question Answering Track Report The TREC-8 Question Answering Track Evaluation ExtAns Evaluation Paper Seminararbeit von C. Steinmann "Q&A-Strategien in TREC-8"
9.5.2001	Thema: Evaluationsmethodik für Antwortextraktion Fragestellung: Da Antwortextraktion eine durchaus andere Zielsetzung hat als Dokumentenretrieval, muss auch die Evaluationsmethodik angepasst werden. Dies war eines der Hauptprobleme bei der Durchführung des Q&A-Tracks der 8. TREC. Im Vorfeld dieser Konferenz (und im Nachgang dazu) wurden diese Fragen heiss diskutiert. Was sind gute/schlechte Antworten auf welche Arten von Fragen? Wie sollen die menschlichen Beurteiler entscheiden? Was waren die Grenzfälle? Was sind die Antworten, auf die man sich schliesslich einigte? Welche Folgerungen für TREC-9 zogen die Organisatoren daraus?	Anja Hermann Eva Strübin
16.5.2001	Thema: Automatische Evaluation von Antwortextraktionssystemen Fragestellung: Bei grossen Dokumentenmengen wird es schnell sehr aufwändig, gefundene Antworten zu evaluieren und bewerten. Eine Automatisierung wäre sehr nützlich (das nachträgliche Bewerten ist viel einfacher als das Finden). Was sind die hauptsächlichen Probleme? Wie sehen die vorgeschlagenen Lösungen aus? Wie sind die Resultate zu interpretieren? Wie zuverlässig sind diese Methoden? Und welche davon sind am ehesten im Rahmen von UIS verwendbar?	David Lee Charlotte Merz
23.5.2001	fällt aus wegen Auffahrt
30.5.2001	Thema: Named Entity Recognition für Antwortextraktion Fragestellung: Der Erkennung und semantischen Klassifikation von sog. named entities wurde in der Informationsextraktion viel Aufmerksamkeit geschenkt. Ein Ziel dieser Sitzung ist es, die Ansätze und Leistungsfähigkeit bestehender Systeme vorzustellen — insbesondere auch Systeme für deutsche Texte. Zudem soll die Frage beantwortet werden, in welcher Form die Resultate der Identifikation und Klassifikation von named entities repräsentiert werden sollen für Antwortextraktion.	Jacqueline von Arx
6.6.2001	Thema: Lexikon, Thesauri und morphologische Verarbeitung für Antwortextraktion Fragestellung: Welche Art von lexikalischer Information, Repräsentation und Analyse ist für Antwortextraktion sinnvoll? Inwieweit können Wortartenbestimmungen, Lemmatisierung, Auflösung von Komposita, Auflösung von Derivationen (Stichwort Nominalisierung) für die Antwortextraktion nutzbar gemacht werden? Oft werden bei der Suche nach Antworten Thesauri verwendet. Was bringt der Einsatz von Thesauri und wie können sie den Bedürfnissen der Antwortextraktion angepasst werden?	Juliette Huber Davina Rodgers	Germanet, ein Thesaurus fürs Deutsche
13.6.2001	Thema: Phrasenerkennung für Antwortextraktion Fragestellung: Vollständige syntaktische Analyse muss keine Voraussetzung für erfolgreiche Informationsextraktion sein. So wurde beispielsweise im FASTUS-System vieles auf dieser relativ einfachen Ebene der syntaktischen Analyse erledigt. Unter dem Stichwort (NP-)-Chunking wurden einiges an Forschlung betrieben. Es sollen Ansätze der Phrasenerkennung fürs Deutsche vorgestellt und ihr Einsatz für die Aufgabe der Informations- und Antwortextraktion beurteilt werden.	Franziska Herold	Neumann 2000 Neumann 1997 ExtrAns Paper
20.6.2001	Thema: Tiefe und Qualität von syntaktischer Analyse für Antwortextraktion Fragestellung: Im ExtrAns-Projekt wurde die link grammar für die syntaktische Analyse verwendet. Fürs Deutsche gibt es kein entsprechendes System, und es stellt sich die Frage, wie genau und robust überhaupt geparst werden muss. Es sollen grammatische Modelle vorgestellt und bezüglich ihrer Eignung für für Antwortextraktion beurteilt werden.	Carola Kühnlein Seraina Forster	Neumann 2000 Neumann 1997 ExtrAns Paper
27.6.2001	Thema: Anforderungen an eine logische Repräsentation für die Antwortextraktion Fragestellung: Für wirklich leistungsfähige Antwortextraktion müssen nach unserer Meinung Teile der Bedeutung ganzer Phrasen und evtl. ganzer Sätze ermittelt und in logischer Form repräsentiert werden. Es stellt sich die Frage, wie die entsprechenden Logischen Formen aussehen sollen. Für die eher beschränkte Aufgabe der Antwortextraktion muss man nicht die gesamte Bedeutung (mit allen Modalitäten, Zeitangaben, adverbiellen Modifikationen etc.) repräsentieren. Aber welche Komponenten der Bedeutung sollte man repräsentieren? Und wie? Volles Prädikatenkalkül und syntaktische Varianten davon (z.B. volle Klausellogik) sind nicht immer verarbeitbar; `Datalog'' (in Prolog-Terminologie: Fakten) ist wohl zu wenig aussagekräftig; Horn-Klausel-Logik ist ok, aber was soll die zugrundeliegende Konzeptualisierung sein? Muss man gewisse Dinge aus der Logik höherer Stufen axiomatisieren?	Klaus M. Frei Christos Bräunle	ExtrAns Paper zu Minimaler Logischer Form
4.7.2001	Schlussbesprechung

Weitere Angaben

Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .

Michael Hess