Indexieren

[ Weiter ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

2.1. Indexieren

2.1.1. Motivation

Suchdilemmas

Typisches Problem bei Volltextsuche

Benutzende erhalten zuviele Treﬀer! Was tun?

Sortierung der Resultate nach Relevanz (Ranking)
Dokumentengruppierung nach Ähnlichkeit (Clustering)
Verfeinern der Suche

Typisches Problem bei OPAC-Suche zu Titel/Schlagwort

Benutzende erhalten zuwenige Treﬀer! Was tun?

Automatisches Erweitern der Indexate
Automatisches Erweitern der Suchterme

2.1.2. Indexate

Automatische Indexierung: Extraktion und Addition

Deﬁnition nach [NOHR 2003, 20]

Zur automatischen Indexierung werden alle Verfahren gezählt, “die vollautomatisch Dokumente analysieren und abgeleitet aus dieser Analyse entweder

ausgewählte Terme aus dem Dokument extrahieren und – unter bestimmten Verfahrensvoraussetzungen in einer bearbeiteten Form – als Indexterme abspeichern (Extraktionsverfahren )
oder Deskriptoren einer kontrollierten Indexierungssprache dem Dokument als Inhaltsrepräsentanten zuweisen (Additionsverfahren ).”

Entstehung

Für Universalbibliotheken im deutschsprachigen Bereich ab 1993
Pionierprojekt MILOS Leitung von K. Lepsky
Für Fachdatenbanken schon länger

Was indizieren am Text?

Von der klassischen Metainformation bis zum Volltext

Titel
Schlagwörter
Klassiﬁkationsinformation
Abstract/Zusammenfassung
Inhaltsverzeichnis
Literaturverweise
Stichwortregister
relevante Terme im Volltext
Volltext

Anreicherung des klassischen Bibliothekskatalogs

Inhaltsverzeichnisse (TOC)

Eingescannte und in Text konvertierte Inhaltsverzeichnisse erlauben mehr Treﬀer.

Beispiel 2.1.1 (Landesbibliothek Vorarlberg).

Keine Treﬀer für eine Suche nach dem Autor Jewgeni Charitonow.
Dafür Treﬀer via Inhaltsverzeichnis.

pict

Abbildung 2.1:

Elektronisches Inhaltsverzeichnis

pict

Beispiel: Halbautomatisches Indizieren von TOC
Projekt der Landesbibliothek Bregenz mit intelligentCapture der Firma AGI

Vorgehen zur Erschliessung von Inhaltsverzeichnissen

Einscannen und OCR → PDF-Datei mit Bild und Text → Grobprüfung und Fehlerkorrektur der OCR-Daten
CAI-Engine (Computer Aided Indexing) erzeugt Kandidaten von gewichteten relevanten Termen, gleicht diese via Thesauri mit Klassiﬁkationen ab. Baut auf AUTINDEX auf, das linguistische und statistische Verfahren verwendet; gute Namenerkennung und Mehrwortbehandlung.
Fachreferenten überprüfen und korrigieren die Term-Kandidaten für das Indexat in durchschnittlich 1 Minute.

Aktueller Stand gemäss http://www.dandelon.com: 138’000

Exkurs: Nutzungsverhalten bei OPAC mit TOC

Einﬂuss online-verfügbarer Inhaltsverzeichnisse (TOC) auf die Benutzung nach [MORRIS 2001]

Hintergrund : Universitäre medizinische Fachbibliothek in New Mexico
Experiment : Wie werden 2000 zufällig ausgewählte Bücher mit und ohne TOC über 1 Jahr hinweg benutzt?

Resultate

73% der Bücher mit TOC und 66% ohne TOC wurden benutzt
Ausleihen von Bücher mit TOC steigen um 43% (interne Ausleihe) bzw. 33% (extern)
45% höhere Ausleihchancen für Bücher mit TOC unter Bereinigung von Faktoren wie Publikationsjahr, Thema, Gebrauch in 3 Vormonaten

Wie indizieren?

Grad an informationslinguistischer Aufbereitung

rohe Wortform im Text
mit oder ohne orthographische Normalisierung
mit Stoppworterkennung
auf Grundform normalisiert
mit Derivations- und Komposita-Auﬂösung (Dekomposition)
mit Erkennung von Mehrwortlexemen bzw. Terminologie
mit Erkennung von Namen
mit Synonymen bzw. Deskriptoren aus Schlagwortdatei
mit Hypernymen
mit semantischer Desambiguierung
mit Relevanzkriterien der Terme für das Dokument

Automatische Indexierung mit IDX/MILOS

IDX: Linguistisches Indexierungsverfahren von H. Zimmermann

Für DE/FR/EN: Stoppwörter, Grundformermittlung, Derivation und Dekomposition, Wortbindestrichergänzung, Erkennung von Synonym- und Hypernymbeziehungen aus Schlagwortnormdatei, Mehrworterkennung, wortbasierte Übersetzung

Motivation und Ziele für MILOS: Maschinelle Indexierung zur verbesserten Literaturerschliessung in Online-Systemen

Zuwenig Treﬀer → höherer Recall
Sprachliche Uneinheitlichkeit bei "Basic-Index-Suche"
→ sprachliche Normierung und Verdichtung des "Basic-Index"

Automatisches Indexieren

pict
Quelle: [OBERHAUSER und LABNER 2003, 6]

Automatisches Indexieren: Probleme

pict
Quelle: [OBERHAUSER und LABNER 2003, 7]

Hilft automatisches Indexieren?

Retrieval-Evaluation

Wie lässt sich der Nutzen quantiﬁzieren ? Wieviele Treﬀer sind schlecht (Ballast)? Wieviele Treﬀer fehlen (Stille)?

Precision eines Systems

Anteil der korrekten Treﬀer an allen gelieferten Treﬀern

Korrekte Treﬀer P recision = ---------------- Gelieferte Treﬀer

Recall (Ausbeute) eines Systems

Anteil der korrekten Treﬀer an allen grundsätzlich möglichen Treﬀern

---Korrekte-Treﬀer--- Recall = Total mögliche Treﬀer

2.1.3. Evaluation

Retrieval-Evaluation MILOS I 1994 [LEPSKY et al. 1996]

Basis

50 Suchanfragen mit 876 relevanten Titeln aus 40’000 Dokumenten

Tests

Nur Index der Titelstichwörter
Index aus Titelstichwörtern und intellektuell vergebenen Schlagwörtern (35% verschlagwortet)
Titelstichwörter + automatisch erzeugtes Indexat

Folgerungen

Verschlagwortung gibt bessere Resultate
Automatisches Indexieren ebenfalls
Precision leidet nicht

RecallPrecision10%20%30%40%50%60%70%80% A B C

Probleme dieser Evaluation

Problem: Wie wurde die Menge aller möglichen Treﬀer bestimmt?
Antwort: Durch Anfragen, bei denen möglichst viel Anfrage-Varianten gestellt wurden. Grund: Eine “suchunabhängige” Erhebung war zu aufwändig.
Problem: Wie wurde Korrektheit der Treﬀer veriﬁziert?
Antwort: Intellektuelle Entscheidung über Katalogdaten
Problem: Ergeben sich nicht unterschiedliche Treﬀermengen ?
Antwort: Doch. Die Treﬀermengen sind zwischen 1 und 244 gross (Mittelwert: 18).
Problem: Kann dann ein zufällig schlechtes/gutes Resultat bei grossen Treﬀermengen die Evaluation nicht verzerren ?
Antwort: Doch. Deshalb wurde für jede Frage Precision und Recall separat berechnet und dann gemittelt .

Gemittelte vs. total aufgerechnete Precision/Recall
RecallPrecision10%20%30%40%50%60%70%80%90% A B C Gemittelte Werte RecallPrecision10%20%30%40%50%60%70%80%90% A B C Total aufgerechnete Werte

Retrieval-Evaluation [OBERHAUSER und LABNER 2003]

Basis: 100 Suchanfragen über 72’000 Dokumenten

Von ursprünglich 100’000 Dokumenten waren nur 72% geeignet.
(Unter-)Titel- und Schlagwörter wurden automatisch indexiert.
Schlagwortdatei dient zur Synonymerkennung.
Wie schon bei MILOS-I-Evaluation wurden Singular/Pluralformen in Anfragen verwendet und passend auf “Basic-Index” umformuliert.
Grössere Testmenge, dafür keine Recall-Auswertung mehr!

pict

Abbildung 2.2:

Beispiele für verwendete Anfragen in Retrieval-Evaluation

Retrieval-Evaluation [OBERHAUSER und LABNER 2003]

Resultate

Automatisches Indexat: 30% weniger Nulltreﬀer; 3 Treﬀer mehr im Schnitt; 9% Verlust an Precision

pict

Obwohl nur 43% der Dokumente beschlagwortet sind, führen sie zu über 90% der Treﬀer beim normalen Index.
Beim automatischen Index führen sie immer noch zu 72% der Treﬀer.

2.1.4. Herausforderungen

Praktische Herausforderungen

Integration

von automatischer mit intellektueller Erschliessung unterschiedlicher Ausprägung (Schlagwort, Schlagwortkette, Klassiﬁkation)

Suchterm-Indexierung

Gleichbehandlung von Suchtermen des Benutzers und OPAC-Daten ermöglichen, d.h. Online-Indexieren von Suchanfragen zu Indexaten

Kooperation und Sharing: Bibliotheksverbünde

Nicht jede Bibliothek muss z.B. alle Inhaltsverzeichnisse einscannen und automatisch indexieren! Digitalisierte Information lässt sich einfach distribuieren.

Herausforderungen in der näheren Zukunft

Zunehmende Digitalisierung von textueller Information
Im Google-Zeitalter ist Volltextsuche Standard geworden
Welche computerlinguistischen Anwendungen erleichtern die Praxis von Bibliotheksbenutzenden tatsächlich?
Welche computerlinguistischen Anwendungen erleichtern die bibliothekswissenschaftliche Arbeit tatsächlich?
Wie lassen sich automatische computerlinguistische und intellektuelle Verfahren optimal kombinieren?

[ Weiter ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]