8.2.  Informationsextraktion

Informationsextraktion (IE) 

Definition 8.2.1 (nach [Nohr, 224]). Ziel von Information Extraction ist es,

Message Understanding Conferences (MUC)

Von 1987 bis 1997 wurden systematisch kompetitiv IE-Tasks gestellt und die Resultate der Forschungsgruppen vergleichbar evaluiert.

Beispiel 8.2.2 (Szenario Führungswechsel in Firmen).
Wer übernimmt in welcher Firma wann von wem welche Position?

Beispiel Führungswechsel: Text und Template 

Beispiel 8.2.3 (News http://www.focus.de).
03.12.08 Arcandor
Führungswechsel im März
Nun ist es offiziell: Der scheidende Telekom-Finanzvorstand Eick wird im März Nachfolger von Thomas Middelhof als Arcandor-Chef. Die Aktien des angeschlagenen Touristik- und Handelskonzerns reagierten am Mittwoch mit einem Kursfeuerwerk auf den Wechsel an der Konzernspitze. Die Papiere verteuerten sich um bis zu 17 Prozent. Anfang März wechselt der scheidende Finanzvorstand der Deutschen Telekom, Karl-Gerhard Eick, auf den Chefsesel bei Arcandor, wie das Unternehmen am Mittwoch mitteilte. Er folgt dem eher glücklosen Thomas Middelhoff, der den Job schon länger loswerden wollte. …

Szenario-Template

8.2.1.  IE vs. IR

Unterschied IE vs. IR ▸▸▸ 
Information Retrieval gets sets of relevant documents – you analyse the documents.


pict

Abbildung 8.4: IR


Information Extraction gets facts out of documents – you analyse the facts.


pict

Abbildung 8.5: IE


8.2.2.  Klassische IE

5 klassische Aufgaben der IE [Cunningham 1999]

1. Named Entity Recognition (NER)

Bezeichnungen von Personen, Organisationen, Daten usw. finden und klassifizieren. (Bestes F-Mass MUC 2007: 94%)

2. Coreference Resolution (CO)

Identitätsbeziehungen zwischen erkannten Entitäten bestimmen. Z.B. “Bundeskanzler Schröder”, “Schröder”, “G. Schröder” , “er” usw. aufeinander beziehen. (Bestes F-Mass MUC 2007: 62%)

3. Template Element Construction (TE)

Anreicherung an beschreibender Information zu interessierenden Grössen aus der Textkollektion oder externen Wissensquellen. Z.B. wurde die Stadt Toronto identifiziert und die Information hinzugefügt, dass sie in Kanada liegt. (Bestes F-Mass MUC 2007: 87%)

Typisches IE-Systemsicht auf Named Entities 



IE-artige semantische Annotation 


pict

Abbildung 8.7: Verknüpfung von NER, Hintergrundinformation und Textinformation http://www.ontotext.com/kim/

5 klassische Aufgaben eines IE-Systems II 

4. Template Relation Construction (TR)

Entdecken und klassifizieren von Beziehungen zwischen den interessierenden Entitäten. (Bestes F-Mass MUC 2007: 76%)

5. Scenario Template Production (ST)

Integration der Information über Template-Elemente und Template-Relationen zu konkreten Events der anwendungsspezifischen Szenarien. (Bestes F-Mass MUC 2007: 51%)

Ansätze

Typischerweise lexikalische und partielle syntaktische Analyse, über deren Resultat mit Hilfe von heuristischen Suchmustern operiert wird.