8.2.  Informationsextraktion

Informationsextraktion 

Definition 8.2.1. Ein Informationsextraktionssystem extrahiert auf Grund vorgegebener Informationsmuster (template, Merkmal-Wert-Paare) aus Textdokumenten gefüllte Instanzen dieser Muster.

Informationsextraktion ist ein seit den 90er-Jahren (MUC-Konferenzen) eine aktive und erfolgreiche Forschungsrichtung.

Beispiel 8.2.2 (IE-Anwendungsszenario ▸▸▸).

An IE system analyses newspaper articles to find instances of corporate mergers and joint ventures. The system identifies all the participating corporations , products and services associated with the joint venture, and other details such as the amount of investment capital and the names of the associated partners .

8.2.1.  IE vs. IR

Unterschied IE vs. IR ▸▸▸ 
Information Retrieval gets sets of relevant documents – you analyse the documents.


pict

Abbildung 8.4: IR


Information Extraction gets facts out of documents – you analyse the facts.


pict

Abbildung 8.5: IE


8.2.2.  Klassische IE

5 klassische Aufgaben eines IE-Systems nach [CUNNINGHAM 1999]

Named Entity Recognition (NER)

Bezeichnungen von Personen, Organisationen, Daten usw. finden und klassifizieren.

Coreference Resolution(CO)

Identitätsbeziehungen zwischen erkannten Entitäten bestimmen. Z.B. “Bundeskanzler Schröder”, “Schröder”, “G. Schröder” , “er” usw. aufeinander beziehen.

Template Element construction (TE)

Anreicherung an beschreibender Information zu interessierenden Grössen aus der Textkollektion oder externen Wissensquellen. Z.B. wurde die Stadt Toronto identifiziert und die Information hinzugefügt, dass sie in Kanada liegt.

Template Relation construction (TR)

Entdecken und klassifizieren von Beziehungen zwischen in interessierenden Entitäten. Z.B. medizinische IE (http://www.ontogene.org): Entdecken von Beziehungen zwischen Proteinen und Genen.

Scenario Template production (ST)

Integration der Information über TE und TR in anwendungsspezfische Szenarien. Z.B. Entdecken von typischen wirtschaftskriminellen Machenschaften.

Bemerkung

Die Lösung dieser 5 Aufgaben (sog. tasks) wurde in verschiedenen wettbewerbsmässigen Evaluierungskonferenzen erfolgreich optimiert.

Typisches IE-System