8.1.  Textzusammenfassung

8.1.1.  Modell

Grundmodell des verstehenden Zusammenfassen 


pict

Abbildung 8.2: Grundmodell des inhaltsbasierten Textzusammenfassen

Problem

Language understanding is somewhat like counting from one to infinity; language generation is like counting from infinity to one.
(Zitat von Yorick Wilks nach [Dale et al. 1998])

Ausweg

Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung.

8.1.2.  Terminologie

Terminologie 

Definition 8.1.1 (abstract). Die Textzusammenfassung bedingt eine Reformulierung des Texts.

Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen Sätzen eines Texts.

Definition 8.1.3 (informative summary ▸▸▸). An informative summary is meant to represent (and often replace) the original document.

Definition 8.1.4 (indicative summary). An indicative summary ’s main purpose is to suggest the contents of the article without giving away detail on the article content.

Beispiele?

8.1.3.  Ansätze

Ansätze der Textextraktion/-kompression 

Statistische und heuristische Verfahren

Linguistische und wissensverarbeitende Verfahren 
Seit 70er Jahren: Meist sehr anwendungsspezifisch .

Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung).
Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten aufbereitet.

Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung).
Ein System, das Presseberichte über Unternehmensübernahmen analysiert und in einer Wissensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen” Berichten abgeglichen und Teile daraus als Antworten zurückgegeben.

Exkurs: Telegraphische Zusammenfassung 

Beispiel 8.1.7 ([Grefenstette 1998] telegraphisches Tool).


pict pict
Abbildung 8.3: Telegraphische Verkürzungstechnik


Ansatz

Aktuelle statistikbasierte Forschung 

Sentence compression

In der Forschung wird die Text-Kompression auf Satzebene mit lernenden Verfahren verfolgt [Cohn und Lapata 2008]: Einfaches Eliminieren irrelevanter Wörter (word deletion) und auch reformulierendes Zusammenfassen (abstracting).

Beispiel 8.1.8 (Extracting vs. Abstracting nach [Cohn und Lapata 2008]).

Fazit Textzusammenfassung 
Was zeichnet gute Textzusammenfassung/-kompression aus?

Relevanz

Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei?

Lesbarkeit

Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von anaphorischen Ausdrücken? (dangling pronouns)

Parametrisierbarkeit

Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung?