[ Weiter ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]
Grundmodell des verstehenden Zusammenfassen
Problem
Language understanding
is somewhat like counting from one to infinity; language generation
is like counting from infinity to one.
(Zitat von Yorick Wilks nach [Dale et al.
1998])
Ausweg
Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung.
Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen Sätzen eines Texts.
Definition 8.1.3 (informative summary ▸▸▸). An informative summary is meant to represent (and often replace) the original document.
Definition 8.1.4 (indicative summary). An indicative summary ’s main purpose is to suggest the contents of the article without giving away detail on the article content.
Ansätze der Textextraktion/-kompression
Statistische und heuristische Verfahren
Linguistische und wissensverarbeitende Verfahren
Seit 70er Jahren: Meist sehr anwendungsspezifisch
.
Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung).
Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten
aufbereitet.
Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung).
Ein System, das Presseberichte über Unternehmensübernahmen analysiert und in einer
Wissensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen”
Berichten abgeglichen und Teile daraus als Antworten zurückgegeben.
Exkurs: Telegraphische Zusammenfassung
Ansatz
Aktuelle statistikbasierte Forschung
Sentence compression
In der Forschung wird die Text-Kompression auf Satzebene mit lernenden Verfahren verfolgt [Cohn und Lapata 2008]: Einfaches Eliminieren irrelevanter Wörter (word deletion) und auch reformulierendes Zusammenfassen (abstracting).
Beispiel 8.1.8 (Extracting vs. Abstracting nach [Cohn und Lapata 2008]).
Fazit Textzusammenfassung
Was zeichnet gute Textzusammenfassung/-kompression aus?
Relevanz
Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei?
Lesbarkeit
Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von anaphorischen Ausdrücken? (dangling pronouns)
Parametrisierbarkeit
Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung?
[ Weiter ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]