Prof. Dr. Michael Hess lic. phil. Simon Clematide Sommersemester 2001
Das von uns entwickelte ``Universitäts-Informations-Systems'' (siehe UIS resp. LUIS) verwendet noch kaum semantische Konzepte zum Lokalisieren von Antworten in Texten, wie dies z.B. in ExtrAns schon geschieht. Im Seminar sollen konkrete Schritte auf eine entsprechende Erweiterung von UIS hin unternommen werden.
Für Fragen etc. bitte E-Mail hess@ifi.unizh.ch verwenden (und nur in Notfällen Telefon)Sprechstunde: Mittwoch (für Seminar bevorzugt!) oder Dienstag 14.00-15.00 (bitte bei Corinne Maurer, Telefon 635 43 31, anmelden!)
Sprechstunde: Mittwoch 8.30-10.00 (Anmeldung per E-Mail siclemat@ifi.unizh.ch oder Telefon 635 67 20)
Ort: Kollegiengebäude Uni Zentrum Raum 321
Zeit: Mittwoch, 16.15-18.00
Beginn: 4. April 2001
Hinweis: Besuch der Vorbesprechung (mit Themenverteilung) am 7. Februar 2001, 17.15, Institut für Informatik, Raum H-35, war erforderlich.
Bestandenes Akzess-Examen in Computerlinguistik
Um einen Seminarschein zu erwerben, wird wie üblich Anwesenheit während 80% der Sitzungen sowie eine schriftliche Arbeit (im Umfang von 15 bis 20 Seiten) und eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) verlangt (für kleinen Schein: nur mündliche Präsentation). Zur mündlichen Präsentation gehört ein Handout (1 bis max. 2 Seiten), das die wichtigsten Begriffe, Thesen, Literaturhinweise enthält.
Ressourcen (Web-Seiten, Artikel etc.) finden sich hier
Einige zusätzliche allgemeinere Literaturhinweise auch hier. (Um PostScript-Dateien (Endung .ps) betrachten resp. ausdrucken zu können eignet sich das Programm GhostView resp. GhostScript. Wir haben aber versucht, alles in PDF zu konvertieren.)
In der IFI-Bibliothek gibt es einen kleinen Handapparat.
Alle Links sollten jetzt funktionieren, ansonsten bitte Mail an S. Clematide.
Datum | Thema | ReferentInnen | Einstiegsunterlagen/Material |
4.4.2001 | Einführung | Beurteilungskriterien | |
11.4.2001 | Übersichtsreferat: Ansätze und Formen der Informationswiedergewinnung
Fragestellung: Das Problem der Wiederfindung von Informationen in textueller Form wurde mit unterschiedlichsten Ansätzen zu lösen versucht. Ziel dieser Sitzung ist es, einen Überblick darüber zu geben, und einigen Begriffen wie Information Retrieval, Document Retrieval, Text Retrieval, Passage Retrieval, Information-Extraction, Antwortextraktion usw. eine genauere Bestimmung und beispielhaftes Verständnis zu geben. |
Alexandra Bünzli | ExtrAns Paper zu Antwort Extraktion
Seminararbeit A. Bünzli: "IR-Eine Einführung in das Indexieren" |
18.4.2001 | Übersichtsreferat: Informationsextraktion: Ansätze und Anwendungen
Fragestellung: Mit dem Begriff "Informationsextraktion aus Texten" sind engere und weiter gefasste Interpretationen verbunden. Insbesondere im Rahmen der Message Understanding Conferences (MUC) wurden klar spezifizierte Teilaufgaben (sog. Tasks), die mit Informationsextraktion verbunden sind, definiert. Es geht darum, über diese Aktivitäten, Ansätze und Anwendungen einen Überblick zu geben und die neueren Entwicklungen insbesondere in der Text Retrieval Conference (TREC) aufzuzeigen.Darüber hinaus soll Bezug zu Aufgaben und Ansätzen geliefert werden, die unter den Stichwörtern Text Mining, Text Routing, Text Filtering, Text Clustering abgehandelt werden. |
Yvonne Archer | TREC8-Filtering Übersicht |
25.4.2001 | Fallbeispiel: Leistungs- und Fehleranalyse von LUIS/ExtrAns
Fragestellung: Die Leistungsfähigkeit unserer hausgemachten Antwortextraktionssysteme ("ExtrAns" für englische UNIX-Handbuchseiten, "LUIS" für deutsche Universitätsadministrativa) soll genauer unter die Lupe genommen werden.Für die Leistungsmängel von LUIS soll eine Kategorisierung gemacht werden, um eine klare Prioritätenliste von notwendigen Verbesserungen zu erhalten. Zudem soll dabei eine Sammlung von (realistischen) Fragen bzw. Fragetypen entstehen mit den momentan gefundenen Resultaten und in Zukunft idealerweise zu findenden Resultaten. |
Franco Colombo | FAQ FINDER |
2.5.2001 | Untersuchung: Die Lehren aus dem Q&A-Track der TREC 8/9
Fragestellung: Der Q&A-Track (Frage-Antwort-Teilaufgabe) der 8. TREC war der erste Versuche einer grossen vergleichenden Evaluation verschiedenster Antwortextraktionssysteme. Es wurde von einfachsten stichwortbasierten Methoden bis zu aufwendigen linguistisch basierten Systeme so ziemlich alles versucht. Was sind die Lehren aus diesem ersten Wettbewerb für die Disziplin als Ganzes und für das deutschsprachige(!) LUIS insbesondere? Was brachte TREC 9 für Fortschritte? |
Cornelia Steinmann | Archiv der Diskussion
(als zip-Archiv) The TREC-8 Question Answering Track Report |
9.5.2001 | Thema: Evaluationsmethodik für Antwortextraktion
Fragestellung: Da Antwortextraktion eine durchaus andere Zielsetzung hat als Dokumentenretrieval, muss auch die Evaluationsmethodik angepasst werden. Dies war eines der Hauptprobleme bei der Durchführung des Q&A-Tracks der 8. TREC. Im Vorfeld dieser Konferenz (und im Nachgang dazu) wurden diese Fragen heiss diskutiert. Was sind gute/schlechte Antworten auf welche Arten von Fragen? Wie sollen die menschlichen Beurteiler entscheiden? Was waren die Grenzfälle? Was sind die Antworten, auf die man sich schliesslich einigte? Welche Folgerungen für TREC-9 zogen die Organisatoren daraus? |
Anja Hermann | |
16.5.2001 | Thema: Automatische Evaluation von Antwortextraktionssystemen
Fragestellung: Bei grossen Dokumentenmengen wird es schnell sehr aufwändig, gefundene Antworten zu evaluieren und bewerten. Eine Automatisierung wäre sehr nützlich (das nachträgliche Bewerten ist viel einfacher als das Finden). Was sind die hauptsächlichen Probleme? Wie sehen die vorgeschlagenen Lösungen aus? Wie sind die Resultate zu interpretieren? Wie zuverlässig sind diese Methoden? Und welche davon sind am ehesten im Rahmen von UIS verwendbar? |
David Lee | |
23.5.2001 | fällt aus wegen Auffahrt | ||
30.5.2001 | Thema: Named Entity Recognition für Antwortextraktion
Fragestellung: Der Erkennung und semantischen Klassifikation von sog. named entities wurde in der Informationsextraktion viel Aufmerksamkeit geschenkt. Ein Ziel dieser Sitzung ist es, die Ansätze und Leistungsfähigkeit bestehender Systeme vorzustellen insbesondere auch Systeme für deutsche Texte. Zudem soll die Frage beantwortet werden, in welcher Form die Resultate der Identifikation und Klassifikation von named entities repräsentiert werden sollen für Antwortextraktion. |
Jacqueline von Arx | |
6.6.2001 | Thema: Lexikon, Thesauri und morphologische Verarbeitung für Antwortextraktion
Fragestellung: Welche Art von lexikalischer Information, Repräsentation und Analyse ist für Antwortextraktion sinnvoll? Inwieweit können Wortartenbestimmungen, Lemmatisierung, Auflösung von Komposita, Auflösung von Derivationen (Stichwort Nominalisierung) für die Antwortextraktion nutzbar gemacht werden? Oft werden bei der Suche nach Antworten Thesauri verwendet. Was bringt der Einsatz von Thesauri und wie können sie den Bedürfnissen der Antwortextraktion angepasst werden? |
Juliette Huber | Germanet, ein Thesaurus fürs Deutsche |
13.6.2001 | Thema: Phrasenerkennung für Antwortextraktion
Fragestellung: Vollständige syntaktische Analyse muss keine Voraussetzung für erfolgreiche Informationsextraktion sein. So wurde beispielsweise im FASTUS-System vieles auf dieser relativ einfachen Ebene der syntaktischen Analyse erledigt. Unter dem Stichwort (NP-)-Chunking wurden einiges an Forschlung betrieben. Es sollen Ansätze der Phrasenerkennung fürs Deutsche vorgestellt und ihr Einsatz für die Aufgabe der Informations- und Antwortextraktion beurteilt werden. |
Franziska Herold | Neumann 2000 |
20.6.2001 | Thema: Tiefe und Qualität von syntaktischer Analyse für Antwortextraktion
Fragestellung: Im ExtrAns-Projekt wurde die link grammar für die syntaktische Analyse verwendet. Fürs Deutsche gibt es kein entsprechendes System, und es stellt sich die Frage, wie genau und robust überhaupt geparst werden muss. Es sollen grammatische Modelle vorgestellt und bezüglich ihrer Eignung für für Antwortextraktion beurteilt werden. |
Carola Kühnlein | |
27.6.2001 | Thema: Anforderungen an eine logische Repräsentation für die Antwortextraktion
Fragestellung: Für wirklich leistungsfähige Antwortextraktion müssen nach unserer Meinung Teile der Bedeutung ganzer Phrasen und evtl. ganzer Sätze ermittelt und in logischer Form repräsentiert werden. Es stellt sich die Frage, wie die entsprechenden Logischen Formen aussehen sollen. Für die eher beschränkte Aufgabe der Antwortextraktion muss man nicht die gesamte Bedeutung (mit allen Modalitäten, Zeitangaben, adverbiellen Modifikationen etc.) repräsentieren. Aber welche Komponenten der Bedeutung sollte man repräsentieren? Und wie? Volles Prädikatenkalkül und syntaktische Varianten davon (z.B. volle Klausellogik) sind nicht immer verarbeitbar; `Datalog'' (in Prolog-Terminologie: Fakten) ist wohl zu wenig aussagekräftig; Horn-Klausel-Logik ist ok, aber was soll die zugrundeliegende Konzeptualisierung sein? Muss man gewisse Dinge aus der Logik höherer Stufen axiomatisieren? |
Klaus M. Frei | ExtrAns Paper zu Minimaler Logischer Form |
4.7.2001 | Schlussbesprechung |
Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .