2.1.  Indexieren

2.1.1.  Motivation

Suchdilemmas 

Typisches Problem bei Volltextsuche

Benutzende erhalten zuviele Treffer! Was tun?

Typisches Problem bei OPAC-Suche zu Titel/Schlagwort

Benutzende erhalten zuwenige Treffer! Was tun?

2.1.2.  Indexate

Automatische Indexierung: Extraktion und Addition 

Definition nach [NOHR 2003, 20]

Zur automatischen Indexierung werden alle Verfahren gezählt, “die vollautomatisch Dokumente analysieren und abgeleitet aus dieser Analyse entweder

Entstehung

Was indizieren am Text? 

Von der klassischen Metainformation bis zum Volltext

Anreicherung des klassischen Bibliothekskatalogs 

Inhaltsverzeichnisse (TOC)

Eingescannte und in Text konvertierte Inhaltsverzeichnisse erlauben mehr Treffer.

Beispiel 2.1.1 (Landesbibliothek Vorarlberg).


pict

Abbildung 2.1:

Elektronisches Inhaltsverzeichnis 


pict


Beispiel: Halbautomatisches Indizieren von TOC 
Projekt der Landesbibliothek Bregenz mit intelligentCapture der Firma AGI

Vorgehen zur Erschliessung von Inhaltsverzeichnissen

  1. Einscannen und OCR PDF-Datei mit Bild und Text Grobprüfung und Fehlerkorrektur der OCR-Daten
  2. CAI-Engine (Computer Aided Indexing) erzeugt Kandidaten von gewichteten relevanten Termen, gleicht diese via Thesauri mit Klassifikationen ab. Baut auf AUTINDEX auf, das linguistische und statistische Verfahren verwendet; gute Namenerkennung und Mehrwortbehandlung.
  3. Fachreferenten überprüfen und korrigieren die Term-Kandidaten für das Indexat in durchschnittlich 1 Minute.

Aktueller Stand gemäss http://www.dandelon.com: 138’000

Exkurs: Nutzungsverhalten bei OPAC mit TOC 

Einfluss online-verfügbarer Inhaltsverzeichnisse (TOC) auf die Benutzung nach [MORRIS 2001]

Resultate

Wie indizieren? 

Grad an informationslinguistischer Aufbereitung

Automatische Indexierung mit IDX/MILOS 

IDX: Linguistisches Indexierungsverfahren von H. Zimmermann

Für DE/FR/EN: Stoppwörter, Grundformermittlung, Derivation und Dekomposition, Wortbindestrichergänzung, Erkennung von Synonym- und Hypernymbeziehungen aus Schlagwortnormdatei, Mehrworterkennung, wortbasierte Übersetzung

Motivation und Ziele für MILOS: Maschinelle Indexierung zur verbesserten Literaturerschliessung in Online-Systemen

Automatisches Indexieren 


pict
Quelle: [OBERHAUSER und LABNER 2003, 6]


Automatisches Indexieren: Probleme 


pict
Quelle: [OBERHAUSER und LABNER 2003, 7]


Hilft automatisches Indexieren? 

Retrieval-Evaluation

Wie lässt sich der Nutzen quantifizieren ? Wieviele Treffer sind schlecht (Ballast)? Wieviele Treffer fehlen (Stille)?

Precision eines Systems

Anteil der korrekten Treffer an allen gelieferten Treffern

             Korrekte Treffer
P recision = ----------------
            Gelieferte Treffer

Recall (Ausbeute) eines Systems

Anteil der korrekten Treffer an allen grundsätzlich möglichen Treffern

         ---Korrekte-Treffer---
Recall = Total mögliche Treffer

2.1.3.  Evaluation

Retrieval-Evaluation MILOS I 1994 [LEPSKY et al. 1996]

Basis

50 Suchanfragen mit 876 relevanten Titeln aus 40’000 Dokumenten

Tests

Folgerungen

RecallPrecision10%20%30%40%50%60%70%80% A B C

Probleme dieser Evaluation 

Gemittelte vs. total aufgerechnete Precision/Recall  
RecallPrecision10%20%30%40%50%60%70%80%90% A B C Gemittelte Werte RecallPrecision10%20%30%40%50%60%70%80%90% A B C Total aufgerechnete Werte

Retrieval-Evaluation [OBERHAUSER und LABNER 2003]

Basis: 100 Suchanfragen über 72’000 Dokumenten


pict

Abbildung 2.2: Beispiele für verwendete Anfragen in Retrieval-Evaluation

Retrieval-Evaluation [OBERHAUSER und LABNER 2003]

Resultate


pict


2.1.4.  Herausforderungen

Praktische Herausforderungen 

Integration

von automatischer mit intellektueller Erschliessung unterschiedlicher Ausprägung (Schlagwort, Schlagwortkette, Klassifikation)

Suchterm-Indexierung

Gleichbehandlung von Suchtermen des Benutzers und OPAC-Daten ermöglichen, d.h. Online-Indexieren von Suchanfragen zu Indexaten

Kooperation und Sharing: Bibliotheksverbünde

Nicht jede Bibliothek muss z.B. alle Inhaltsverzeichnisse einscannen und automatisch indexieren! Digitalisierte Information lässt sich einfach distribuieren.

Herausforderungen in der näheren Zukunft