13.3. Wortnetze
13.3.1. WordNet
Wortnetze
- WordNet (http://wordnet.princeton.edu) ist die Mutter aller Wortnetze (und frei
verfügbar)
- API (application interface) in diversesten Programmiersprachen und Datenbank in
verschiedenen Formaten
- Ursprünglich psycholinguistisch motiviert: Wie funktioniert das menschliche lexikalische
Gedächtnis?
- Mittlerweile existieren Wortnetze ((Teil-)Übersetzungen
von WordNet oder auch taxonomisch unabhängig organisierte Netze) für verschiedenste
Sprachen http://www.globalwordnet.org
- GermaNet für Deutsch http://www.sfs.uni-tuebingen.de/lsd
- Die Unterscheidung zwischen Thesaurus, Wortnetz und Ontologie ist unscharf.
Wortformen und Grundformen
Die Lemmata von WortNet sind wortartenspezifische Grundformen (base form): N=Nomen,
A=Adjektiv,V=Verb,R=Adverb
Wortform | Wortart | Grundform |
tries | V | try |
| N | try |
tried | A | tried |
| V | try |
hardest | A | hard |
| R | hard |
seeing | A | seeing |
| N | seeing |
| V | see |
|
|
Nur wenn eine spezielle Flexionsform eine spezielle Bedeutung trägt (best), wird nicht die Grundform
verwendet.
13.3.2. Relationen
Lexikalische Relationen
Definition 13.3.1 (Lexikalische Relation (lexical-semantic relation)). Bedeutungsrelation, welche an
eine bestimmte Grundform (Lemma) gebunden ist.
- Synonymie
- Antonymie: dick vs. dünn
Definition 13.3.2 (Konzeptuelle Relation (semantic relation)). Bedeutungsrelation, welche Begriffe
verbindet. In Wortnetzen werden Begriffe durch Synsets repräsentiert.
- Hypernymie
- Meronymie
- Troponymie: “hinken” ist troponym zu “gehen”
- …
Synsets
Definition 13.3.3 (nach WordNet-Glossar). Synset
: A synonym set; a set of words that are interchangeable in some context.
- Wortartenspezifische Grundformen, welche ungefähr dasselbe bedeuten können, bilden eine
Äquivalenzklasse, d.h. eine Synonym-Menge
- Obwohl man die Menge aller gleichbedeutend verwendbaren Wörter als Repräsentation
der Bedeutung auffassen kann, enthält WordNet traditionelle lexikographische Zusätze:
Bedeutungsumschreibungen, Beispielverwendungen.
Hypo-/Hypernymie (Unter-/Oberbegriff)
- WordNet hat mehrere inhaltliche Top-Kategorien für Nomen und Verben ▸▸▸
- Klassische Taxonomie mit Mehrfachvererbung (Kreuzklassifikation)
Meronymie (Teil-Ganzes-Relation)
WortNet unterscheidet verschiedene Arten von Teil-Sein.
- “ist Teil von
” (part-of ): Das Sinnesorgan “ear” ist Teil des Körperteils “head”. Die Zeitperiode “adolescence”
ist Teil der Zeitperiode “youth”.
- “ist Material für
” (substance-of ): Das Körperteil “oxtail” ist das Material für die Essware “oxtail soup”.
- “ist Mitglied von
” (member-of ): Der “cabinet minister” ist (in England) Mitglied des “British Cabinet”.
Mehrfachvererbung bei Meronymie
13.3.3. Statistik
WordNet 3.0 in Zahlen
- Unique Strings: Wortformen pro Wortart
- Synsets: Synonymklassen pro Wortart
- Word-Sense Pairs: lexikalische Einheiten, d.h. Kombinationen von Wortform und Sinn
13.3.4. Anwendung
Anwendung von Wortnetzen
- Desambiguierung
von Lesarten (word sense desambiguation; WSD): Bedeutet das Vorkommen der Wortform
“bank” im Text Kreditinstitut oder Sitzgelegenheit?
- Desambiguierung im Information Retrieval
: Suche nach “Bank” im Sinn von Kreditinstitut soll keine Treffer mit Bank im Sinne von
Sitzgelegenheit beinhalten.
- Expansion
von Synonymen (oft auch Ober-/Unterbegriffen):
- Query Expansion
: Die Suche nach “Produktion” wird automatisch zur Suche nach “Herstellung”
erweitert.
- Indexieren mit Synonymen
: Der Index wird über Synonymset erstellt.
- Anaphern-Resolution
: Textkohärenz läuft oft entlang von Hypernymie: “[Der neue iMac]i kostet nur noch 1500 CHF.”
“[Der Rechner]i läuft jetzt 3.5 Mal schneller.”