University of Zurich Department of Computer Science CL group


Universität Zürich

Institut für Informatik und Philosophische Fakultät

Abteilung Computerlinguistik


Seminar in Computerlinguistik

Semantikrepräsentation für Antwortextraktion

Prof. Dr. Michael Hess

lic. phil. Simon Clematide


Sommersemester 2001

 


Inhalt

 Das von uns entwickelte ``Universitäts-Informations-Systems'' (siehe UIS resp. LUIS) verwendet noch kaum semantische Konzepte zum Lokalisieren von Antworten in Texten, wie dies z.B. in ExtrAns schon geschieht. Im Seminar sollen konkrete Schritte auf eine entsprechende Erweiterung von UIS hin unternommen werden.


Dozenten

 Prof. Dr. Michael Hess

Für Fragen etc. bitte E-Mail hess@ifi.unizh.ch verwenden (und nur in Notfällen Telefon)

Sprechstunde: Mittwoch (für Seminar bevorzugt!) oder Dienstag 14.00-15.00 (bitte bei Corinne Maurer, Telefon 635 43 31, anmelden!)

 lic. phil. Simon Clematide

Sprechstunde: Mittwoch 8.30-10.00 (Anmeldung per E-Mail siclemat@ifi.unizh.ch oder Telefon 635 67 20)


Zeit und Ort der Veranstaltung

 Ort: Kollegiengebäude Uni Zentrum Raum 321

 Zeit: Mittwoch, 16.15-18.00

 Beginn: 4. April 2001

 Hinweis: Besuch der Vorbesprechung (mit Themenverteilung) am 7. Februar 2001, 17.15, Institut für Informatik, Raum H-35, war erforderlich.


Anforderungen

 Bestandenes Akzess-Examen in Computerlinguistik

 Um einen Seminarschein zu erwerben, wird wie üblich Anwesenheit während 80% der Sitzungen sowie eine schriftliche Arbeit (im Umfang von 15 bis 20 Seiten) und eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) verlangt (für kleinen Schein: nur mündliche Präsentation). Zur mündlichen Präsentation gehört ein Handout (1 bis max. 2 Seiten), das die wichtigsten Begriffe, Thesen, Literaturhinweise enthält.


Ressourcen

 Ressourcen (Web-Seiten, Artikel etc.) finden sich hier

 Einige zusätzliche allgemeinere Literaturhinweise auch hier. (Um PostScript-Dateien (Endung .ps) betrachten resp. ausdrucken zu können eignet sich das Programm GhostView resp. GhostScript. Wir haben aber versucht, alles in PDF zu konvertieren.)

 In der IFI-Bibliothek gibt es einen kleinen Handapparat.


Programm

Alle Links sollten jetzt funktionieren, ansonsten bitte Mail an S. Clematide.

Datum Thema ReferentInnen Einstiegsunterlagen/Material
4.4.2001 Einführung Beurteilungskriterien

Keyword-Spotting (tokenizer, keyword)

11.4.2001 Übersichtsreferat: Ansätze und Formen der Informationswiedergewinnung

Fragestellung: Das Problem der Wiederfindung von Informationen in textueller Form wurde mit unterschiedlichsten Ansätzen zu lösen versucht. Ziel dieser Sitzung ist es, einen Überblick darüber zu geben, und einigen Begriffen wie Information Retrieval, Document Retrieval, Text Retrieval, Passage Retrieval, Information-Extraction, Antwortextraktion usw. eine genauere Bestimmung und beispielhaftes Verständnis zu geben.

Alexandra Bünzli

Canan Salda

ExtrAns Paper zu Antwort Extraktion

Glossar
Handout

Seminararbeit A. Bünzli: "IR-Eine Einführung in das Indexieren"

18.4.2001 Übersichtsreferat: Informationsextraktion: Ansätze und Anwendungen

Fragestellung: Mit dem Begriff "Informationsextraktion aus Texten" sind engere und weiter gefasste Interpretationen verbunden. Insbesondere im Rahmen der Message Understanding Conferences (MUC) wurden klar spezifizierte Teilaufgaben (sog. Tasks), die mit Informationsextraktion verbunden sind, definiert. Es geht darum, über diese Aktivitäten, Ansätze und Anwendungen einen Überblick zu geben und die neueren Entwicklungen insbesondere in der Text Retrieval Conference (TREC) aufzuzeigen.Darüber hinaus soll Bezug zu Aufgaben und Ansätzen geliefert werden, die unter den Stichwörtern Text Mining, Text Routing, Text Filtering, Text Clustering abgehandelt werden.

Yvonne Archer

Christine Surer

TREC8-Filtering Übersicht
25.4.2001 Fallbeispiel: Leistungs- und Fehleranalyse von LUIS/ExtrAns

Fragestellung: Die Leistungsfähigkeit unserer hausgemachten Antwortextraktionssysteme ("ExtrAns" für englische UNIX-Handbuchseiten, "LUIS" für deutsche Universitätsadministrativa) soll genauer unter die Lupe genommen werden.Für die Leistungsmängel von LUIS soll eine Kategorisierung gemacht werden, um eine klare Prioritätenliste von notwendigen Verbesserungen zu erhalten. Zudem soll dabei eine Sammlung von (realistischen) Fragen bzw. Fragetypen entstehen mit den momentan gefundenen Resultaten und in Zukunft idealerweise zu findenden Resultaten.

Franco Colombo

Roberto Nespecca

FAQ FINDER
2.5.2001 Untersuchung: Die Lehren aus dem Q&A-Track der TREC 8/9

Fragestellung: Der Q&A-Track (Frage-Antwort-Teilaufgabe) der 8. TREC war der erste Versuche einer grossen vergleichenden Evaluation verschiedenster Antwortextraktionssysteme. Es wurde von einfachsten stichwortbasierten Methoden bis zu aufwendigen linguistisch basierten Systeme so ziemlich alles versucht. Was sind die Lehren aus diesem ersten Wettbewerb für die Disziplin als Ganzes und für das deutschsprachige(!) LUIS insbesondere? Was brachte TREC 9 für Fortschritte?

Cornelia Steinmann Archiv der Diskussion

(als zip-Archiv)

The TREC-8 Question Answering Track Report

The TREC-8 Question Answering Track Evaluation

ExtAns Evaluation Paper

Seminararbeit von C. Steinmann "Q&A-Strategien in TREC-8"

9.5.2001 Thema: Evaluationsmethodik für Antwortextraktion

Fragestellung: Da Antwortextraktion eine durchaus andere Zielsetzung hat als Dokumentenretrieval, muss auch die Evaluationsmethodik angepasst werden. Dies war eines der Hauptprobleme bei der Durchführung des Q&A-Tracks der 8. TREC. Im Vorfeld dieser Konferenz (und im Nachgang dazu) wurden diese Fragen heiss diskutiert. Was sind gute/schlechte Antworten auf welche Arten von Fragen? Wie sollen die menschlichen Beurteiler entscheiden? Was waren die Grenzfälle? Was sind die Antworten, auf die man sich schliesslich einigte? Welche Folgerungen für TREC-9 zogen die Organisatoren daraus?

Anja Hermann

Eva Strübin

16.5.2001 Thema: Automatische Evaluation von Antwortextraktionssystemen

Fragestellung: Bei grossen Dokumentenmengen wird es schnell sehr aufwändig, gefundene Antworten zu evaluieren und bewerten. Eine Automatisierung wäre sehr nützlich (das nachträgliche Bewerten ist viel einfacher als das Finden). Was sind die hauptsächlichen Probleme? Wie sehen die vorgeschlagenen Lösungen aus? Wie sind die Resultate zu interpretieren? Wie zuverlässig sind diese Methoden? Und welche davon sind am ehesten im Rahmen von UIS verwendbar?

David Lee

Charlotte Merz

23.5.2001 fällt aus wegen Auffahrt
30.5.2001 Thema: Named Entity Recognition für Antwortextraktion

Fragestellung: Der Erkennung und semantischen Klassifikation von sog. named entities wurde in der Informationsextraktion viel Aufmerksamkeit geschenkt. Ein Ziel dieser Sitzung ist es, die Ansätze und Leistungsfähigkeit bestehender Systeme vorzustellen — insbesondere auch Systeme für deutsche Texte. Zudem soll die Frage beantwortet werden, in welcher Form die Resultate der Identifikation und Klassifikation von named entities repräsentiert werden sollen für Antwortextraktion.

Jacqueline von Arx
6.6.2001 Thema: Lexikon, Thesauri und morphologische Verarbeitung für Antwortextraktion

Fragestellung: Welche Art von lexikalischer Information, Repräsentation und Analyse ist für Antwortextraktion sinnvoll? Inwieweit können Wortartenbestimmungen, Lemmatisierung, Auflösung von Komposita, Auflösung von Derivationen (Stichwort Nominalisierung) für die Antwortextraktion nutzbar gemacht werden? Oft werden bei der Suche nach Antworten Thesauri verwendet. Was bringt der Einsatz von Thesauri und wie können sie den Bedürfnissen der Antwortextraktion angepasst werden?

Juliette Huber

Davina Rodgers

Germanet, ein Thesaurus fürs Deutsche
13.6.2001 Thema: Phrasenerkennung für Antwortextraktion

Fragestellung: Vollständige syntaktische Analyse muss keine Voraussetzung für erfolgreiche Informationsextraktion sein. So wurde beispielsweise im FASTUS-System vieles auf dieser relativ einfachen Ebene der syntaktischen Analyse erledigt. Unter dem Stichwort (NP-)-Chunking wurden einiges an Forschlung betrieben. Es sollen Ansätze der Phrasenerkennung fürs Deutsche vorgestellt und ihr Einsatz für die Aufgabe der Informations- und Antwortextraktion beurteilt werden.

Franziska Herold Neumann 2000

Neumann 1997

ExtrAns Paper

20.6.2001 Thema: Tiefe und Qualität von syntaktischer Analyse für Antwortextraktion

Fragestellung: Im ExtrAns-Projekt wurde die link grammar für die syntaktische Analyse verwendet. Fürs Deutsche gibt es kein entsprechendes System, und es stellt sich die Frage, wie genau und robust überhaupt geparst werden muss. Es sollen grammatische Modelle vorgestellt und bezüglich ihrer Eignung für für Antwortextraktion beurteilt werden.

Carola Kühnlein

Seraina Forster

27.6.2001 Thema: Anforderungen an eine logische Repräsentation für die Antwortextraktion

Fragestellung: Für wirklich leistungsfähige Antwortextraktion müssen nach unserer Meinung Teile der Bedeutung ganzer Phrasen und evtl. ganzer Sätze ermittelt und in logischer Form repräsentiert werden. Es stellt sich die Frage, wie die entsprechenden Logischen Formen aussehen sollen. Für die eher beschränkte Aufgabe der Antwortextraktion muss man nicht die gesamte Bedeutung (mit allen Modalitäten, Zeitangaben, adverbiellen Modifikationen etc.) repräsentieren. Aber welche Komponenten der Bedeutung sollte man repräsentieren? Und wie? Volles Prädikatenkalkül und syntaktische Varianten davon (z.B. volle Klausellogik) sind nicht immer verarbeitbar; `Datalog'' (in Prolog-Terminologie: Fakten) ist wohl zu wenig aussagekräftig; Horn-Klausel-Logik ist ok, aber was soll die zugrundeliegende Konzeptualisierung sein? Muss man gewisse Dinge aus der Logik höherer Stufen axiomatisieren?

Klaus M. Frei

Christos Bräunle

ExtrAns Paper zu Minimaler Logischer Form
4.7.2001 Schlussbesprechung

Weitere Angaben

Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .


University of Zurich Department of Computer Science  CL group


          Michael Hess