Volltextsuche

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

7.2
Volltextsuche

Volltextsuche

Deﬁnition 7.2.1 (auch Dokumentenzugriﬀssystem, engl. Information Retrieval (IR)). Die klassische Volltextsuche liefert (Referenzen auf) Dokumente zurück, welche für eine Kombination von Suchtermen und Suchkriterien (=Anfrage, query) relevant sind. Die Suchterme selbst können beliebige im Text vorkommende Ausdrücke sein – es wird nicht wie bei Bibliothekskatalogen mit geschlossenen Sachbegriﬀen indiziert.

Hinweis zu den Einheiten des Retrievals

Anstelle von ganzen Dokumenten als Suchresultat kann man auch kleinere Textstellen (engl. passage retrieval ) als Wiedergewinnungseinheit deﬁnieren.

Beispiel 7.2.2 (Googles deﬁne-Operator).
Gewisse Suchmaschinen unterstützen die Suche nach deﬁnitionsartigen Passagen.

7.2.1
Indexieren

Indexieren

Deﬁnition 7.2.3 (Volltext-Indexieren). Beim Indexieren einer Dokumentensammlung werden (fast) alle Wörter jedes Dokuments ausgewählt , zu Indextermen normalisiert und im Index abgelegt.

Deﬁnition 7.2.4 (Index). Ein Index eines IR-Systems ist eine Daten(infra)struktur, aus der sich für jeden Indexterm eﬃzient bestimmen lässt, in welchen Dokumenten er vorkommt.

Meta-Information zu Dokumenten

IR-System erlauben oft, Einschränkung bezüglich Alter, Sprache, Herkunft etc. von Dokumenten in die Anfrage einzubauen. Solche Informationen müssen für jedes Dokument gespeichert werden.

Beispiel: Vorkommensmatrix in Shakespeare-Stücken

Term-document incidence matrix nach [Manning et al. 2009]

	Anthony	Julius	The	Hamlet	Othello	Macbeth	…
	and	Caesar	Tempest
	Cleopatra
Anthony	1	1	0	0	0	1
Brutus	1	1	0	1	0	0
Caesar	1	1	0	1	1	1
Calpurnia	0	1	0	0	0	0
Cleopatra	1	0	0	0	0	0
mercy	1	0	1	1	1	1
worser	1	0	1	1	1	0
…

Lesebeispiele

Der Term „Calpurnia“ kommt im Stück Julius Caesar vor.

Der Term „Calpurnia“ kommt im Stück The Tempest nicht vor.

Eﬃzienter Index

Speicherplatzprobleme der Vorkommensmatrix

1 Million Dokumente mit je 1000 Tokens zu 6 Bytes pro Token braucht 6 GB Speicherplatz.
Es ﬁnden sich darin typischerweise 1/2 Million Indexterme.
Eine naive Repräsentation der Vorkommensmatrix benötigt also 500’000 × 1’000’000 Bits, d.h. ca. 58GB.

Fast alle Tabellenzellen sind 0

Aus Eﬃzienzgründen sollte nur gespeichert werden, in welchen Dokumenten ein Term tatsächlich vorkommt.

Dictionary

Die Menge aller Indexterme (dictionary) sollte im Hauptspeicher Platz ﬁnden. Durch Termnormalisierung und Stoppwörter lassen sich ca. 1/3 der Indexterme entfernen. [Manning et al. 2009, 89]

Invertierter Index (inverted index)

Jedes Dokument erhält eine ID (DocID).
Für jeden Term t speichern man die sortierte Liste der DocIDs (posting list), welche t enthalten.





Brutus	−→	1	2	4	11	31	45	173	174









Caesar	−→	1	2	4	5	6	16	57	132	…









Calpurnia	−→	2	31	54	101







dictionary		postings

Auswahl der Indexterme
Nach der Tokenisierung werden aus Gründen der Eﬃzienz und/oder Relevanz oft bestimmte Wörter (noise words) ausgeﬁltert.

Allgemeine Funktionswörter einer Sprache, welche meist häuﬁg vorkommen (Stoppwortliste): der, die, das …ich, du, er …auf, unter, in …und, oder …bin, bist, ist, hast …
Bei inhaltlich homogenen Dokumentensammlungen manchmal auch Inhaltwörter , welche fast in allen Dokumenten vorkommen und dadurch keinen informativen Wert besitzen. Z.B. in Dokumenten zur Informatik: System, Computer …

Es gibt auch Suchmaschinen, welche alles indizieren – interessant für CL-Ansätze “WWW als Korpus”.

Eine kleine Stoppwortliste für Englisch ▸▸▸
a about after again ago all almost also always am an and another any anybody anyhow anyone anything anyway are as at away back be became because been before being between but by came can cannot come could did do does doing done down each else even ever every everyone everything for from front get getting go goes going gone got gotten had has have having he her here him his how i if in into is isn’t it just last least left less let like make many may maybe me mine more most much my myself never no none not now of oﬀ on one onto or our ourselves out over per put putting same saw see seen shall she should so some somebody someone something stand such sure take than that the their them then there these they this those through till to too two unless until up upon us very was we went were what what’s whatever when where whether which while who whoever whom whose why will with within without won’t would wouldn’t yet you your

Indexterme normalisieren
Die Normalisierung kann keine bis viel Sprachtechnologie enthalten:

Reduktion auf orthographische Normalform (Ä → ä; ä → ae ; ph → f)
Trunkierung (veraltet): Abschneiden von Wortenden bei Wörtern ab einer Mindestlänge auf einen Präﬁx ﬁxer Länge

analys|ieren $→$ analys
Analys|e $→$ analys
analyt|isch $→$ analyt
Stemming (z.B. noch in Suche im Acrobat Reader): Einzelsprachliche Kürzungsregeln, welche ohne Lexikoneinsatz Wortformen auf ihren Stamm (stem) reduzieren.

Stemming mit dem Porter-Stemmer ▸▸▸

Beispiel 7.2.5 (Porter-Stemmer für Englisch).
These analyses seemed especially analytic.

these $→$ these
analyses $→$ analys
seemed $→$ seem
especially $→$ especi
analytic $→$ analyt

Indexterme normalisieren

Lemmatisierung : Reduktion von syntaktischen Wortformen ﬂektierter Sprachen auf ihre Grundform: “aufgegessen” $→$ “aufessen”
Kompositaanalyse : Auﬂösung von Komposita in ihre Bestandteile: “Schwimmunterricht” $→$ “schwimm” “unterricht”
Derivationsauﬂösung : Auﬂösung von derivierten Ausdrücken: “Überzeugung” “überzeugen” $→$ “überzeugen”
Synonymerkennung : Auﬂösung von engeren Synonymen oder verwandten Bezeichnungen: “Rechenmaschine” $→$ “Computer”, “Luisa” $→$ “Louise”
“Named Entity Recognition ”: Erkennung von Personen-Angaben (Google-Squared), Erkennung von Datumsangaben für “Timelines”

Beispiele

Beispiel: Automatisches Indexieren von OPAC-Daten

pict
Quelle:[Oberhauser und Labner 2003]

Abbildung 7.8:

Automatisches Indizieren von OPAC-Informationen: Gut

pict
Quelle:[Oberhauser und Labner 2003]

Abbildung 7.9:

Automatisches Indizieren von OPAC-Informationen: Schlecht

7.2.2
Architektur

IR-System-Architektur [Carstensen et al. 2004, 483]

pict

Abbildung 7.10:

Generelle Architektur von IR-Systemen nach [Carstensen et al. 2004]

Frage

Warum hat es zwischen dem Kästchen “Anfrage-Compiler” und “Termextraktion und linguistische Normalisierung” eine Verbindung?

7.2.3
Retrieval

Dokument als Menge von Indextermen

Deﬁnition 7.2.6 (engl. bag of words (BOW)). Im IR wird ein Dokument meist als Menge von Indextermen betrachtet.

Deﬁnition 7.2.7 (Boolsches Retrievalmodell). Im Boolschen Retrievalmodell werden die einzelnen Suchterme der Anfrage mit den logischen Operatoren “UND”, “ODER” und “NICHT” verknüpft zu einer komplexen Anfrage.

Beispiel 7.2.8 (Logische Operatoren).
Die Anfrage Schuhmacher UND Suzuka UND (NICHT Michael) bedeutet:

Finde alle Dokumente, welche

den Indexterm Schuhmacher und Suzuka enthalten, aber
den Indexterm Michael nicht enthalten.

Probleme des Boolschen Retrievalmodells

Zweiwertigkeit

Wegen der klassischen Zweiwertigkeit , d.h. keine partiellen Treﬀer, können (bei kleineren Dokumentensammlungen) Null-Treﬀermengen entstehen.

Bei grossen Dokumentensammlungen wiederum können übergrosse Treﬀermengen entstehen. Eine gute Reihenfolge der Suchresultate nach Relevanz ist notwendig (erweitertes Boolsches Modell)

Dokument als Indexterm-Menge

Die Dependenzen zwischen den Wörtern lassen sich nicht darstellen. Ein Aufsatztitel wie “A formal speciﬁcation language for the automatic design of chips by computer” bedeutet dasselbe wie die Wortmenge “automatic, chip, computer, design, formal, language, speciﬁcation”.

Problem der Mengen-Repräsentation für die Suche

Beispiel 7.2.9 (Dokument mit seine Termmenge).
Dokument: “A formal speciﬁcation language for the automatic design of chips by computer” Termmenge: “automatic, chip, computer, design, formal, language, speciﬁcation”

Beispiel 7.2.10 (Anfragen und ihre Term-Mengen).

languages for the design by computer:
language UND design UND computer
the speciﬁcation of computer languages
specification UND computer UND languages

Welches Problem haben wir?

7.2.4
Relevanz

Relevanzabschätzung von Indextermen
Um die Relevanz von Indextermen gegenüber Dokumenten, welche sie enthalten, abschätzen zu können, werden unterschiedlichste Masse angewendet und kombiniert.

Deﬁnition 7.2.11 (engl. term frequency (TF)). Die Relevanzhypothese zur Termhäuﬁgkeit besagt: Je häuﬁger ein Indexterm in einem Dokument erscheint, umso relevanter ist das Dokument für den Term.

Deﬁnition 7.2.12 (engl. inverse document frequency (IDF)). Die Relevanzhypothese zur inversen Dokumenthäuﬁgkeit besagt: Je seltener ein Indexterm eines Dokuments d in anderen Dokumenten der Gesamtkollektion D erscheint, umso relevanter ist Dokument d für den Indexterm.

Überlegungen zu Stoppwörter, TF und IDF

Fragen

Wie verhalten sich typische Stoppwörter bezüglich TF und IDF?
Wie verhält sich ein Wort bezüglich TF und IDF, das in einer Dokumentensammlung nur 1 Vorkommen hat?
Welche Auswirkungen hat es, wenn eine Dokumentensammlung sowohl sehr kurze wie auch extrem lange Dokumente enthält?
Wie könnte man die Information über TF und IDF miteinander kombinieren zu einer einzigen Bewertung?

Die TF/IDF-Formel nach [Salton 1988]

N die Anzahl Dokumente einer Dokumentenmenge D, N = .
d ein Dokument aus der Dokumentenmenge D
i ein Indexterm
df_i die Anzahl der Dokumente aus D, welche Indexterm i enthalten
tf_d,i die Anzahl der Vorkommen von Indexterm i im Dokument d (TF)
w_d,i das Gewicht (Relevanz), welche dem Dokument d bezüglich dem Indexterm i zukommt

N wd,i = tfd,i × log --- ◟--◝◜-◞ ◟-◝d◜fi◞ TF IDF

Fragen

Welche Werte kann tf_d,i und N--
dfi maximal/minimal annehmen? Was macht log?

Vektorraummodell

Deﬁnition 7.2.13 (Vektorraummodell (vector space model)). Ein einfaches Vektorraummodell entsteht, wenn in der Vorkommensmatrix anstelle der 1 das Gewicht (z.B. klassisch TF/IDF) eingetragen wird. Jede Zeile in Vorkommensmatrix ist ein Vektor (Folge von Werten).

Beispiel 7.2.14 (Interaktive Demo zu Vektorraummodell).
http://kt2.exp.sis.pitt.edu:8080/VectorModel/main.html

Idee: Relevanz als Vektorähnlichkeit

Anfrageterme werden wie Dokumentvektoren repräsentiert
Relevanz von Anfrage = Ähnlichkeit von Anfragevektor mit Dokumentvektor
Verschiedene Ähnlichkeitsmasse, z.B. euklidische Distanz, Cosinus, etc.

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

7.2 Volltextsuche

7.2.1 Indexieren

Beispiele

7.2.2 Architektur

7.2.3 Retrieval

7.2.4 Relevanz

7.2
Volltextsuche

7.2.1
Indexieren

7.2.2
Architektur

7.2.3
Retrieval

7.2.4
Relevanz