8.1.  Textzusammenfassung

8.1.1.  Modell

Grundmodell des verstehenden Zusammenfassen


pict

Abbildung 8.1: Grundmodell des inhaltsbasierten Textzusammenfassen

Problem

Language understanding is somewhat like counting from one to infinity; language generation is like counting from infinity to one.
(Zitat von Yorick Wilks nach [DALE et al. 1998])

Ausweg

Textextraktion bzw. -kompression, d.h. Auswählen der wichtigsten Textteile anstelle echter Zusammenfassung.

8.1.2.  Terminologie

Terminologie

Definition 8.1.1 (abstract). Die Textzusammenfassung bedingt eine Reformulierung des Texts.

Definition 8.1.2 (extract). Die Textextraktion ist typischerweise eine Auswahl an wichtigen Sätzen eines Texts.

Definition 8.1.3 (informative summary ▸▸▸). An informative summary is meant to represent (and often replace) the original document.

Definition 8.1.4 (indicative summary). An indicative summary ’s main purpose is to suggest the contents of the article without giving away detail on the article content.

Beispiele?

8.1.3.  Ansätze

Ansätze der Textextraktion/-kompression

Statistische und heuristische Verfahren

Linguistische und wissensverarbeitende Verfahren
Seit 70er Jahren: Meist sehr anwendungsspezifisch .

Beispiel 8.1.5 (STREAK: Zusammenfassung als Textgenerierung).
Ein System, das strukturierte Daten über Basketballspielen zu “natürlich” erscheinenden Kurztexten aufbereitet.

Beispiel 8.1.6 (Scisor: Zusammenfassung als Antwortgenerierung).
Ein System, das Presseberichte über Unternehmensübernahmen analysiert und in einer Wissensdatenbank ablegt. Natürlichsprachliche Benutzeranfragen werden mit den “verstandenen” Berichten abgeglichen und Teile daraus als Antworten zurückgegeben.

Exkurs: Telegraphische Zusammenfassung

Beispiel 8.1.7 ([GREFENSTETTE 1998] telegraphisches Tool).


pict pict
Abbildung 8.2: Telegraphische Verkürzungstechnik


Ansatz

Fazit Textzusammenfassung
Was zeichnet gute Textzusammenfassung/-kompression aus?

Relevanz

Ist das Wichtige drin? Ist das Unwichtige weggelassen? Ist die Zusammmenfassung redundanzfrei?

Lesbarkeit

Wie fügt sich die Zusammenfassung zusammen (Textkohärenz)? Fehlen Bezugsausdrücke von anaphorischen Ausdrücken? (dangling pronouns)

Parametrisierbarkeit

Kann ich den Grad an Kompression beeinflussen? Gibt es eine Form von Benutzermodellierung?