4.4. Baumbanken
4.4.1. NEGRA
NEGRA-Baumbank
- Das erste grosse (20’000 Sätze) Baumbank-Projekt für Deutsch (1997-2001): http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.html
- PP und NP werden mit flacher Hierarchie verbaut
- Ketten von infiniten Verben (VP) sind zu verschachteln
- Syntaktische Phrasenknoten werden nur für Wortgruppen gebildet, nie für Einzelwörter
- Keine annotierten Köpfe in NP
- Keine explizite Unterscheidung der Satztypen
- Annotationshandbuch [BRANTS et al. 1999] mit detaillierten Regeln
- Die TIGER-Baumbank (TIGER-Korpus) (50’000 Sätze im 2006) ist “Nachfolgeprojekt”
4.4.2. TIGERSearch
TIGERSearch: Ein modernes Suchwerkzeug
Lernen aus Beispielen
Beim Annotieren ist es hilfreich, aus bereits (hoffentlich korrekt!) annotiertem Material zu
lernen!
Die 3 Hauptfunktionen von TIGERSearch
-
- Abfrage-Sprache (investigation)
-
- Visualisierung der Suchresultate und Baumbank (exploration)
-
- Einfache statistische Auswertung (condensation)
Die wichtigsten Suchrezepte
- Wie wird das Wort “der” verwendet?
[ word="der" ]
- Mit welchen Wortarten kommt das Wort “der” wie oft vor? (“#w:” brauchts für das
Statistikmodul als Knoten-Identifikator)
#w: [ word="der" ]
- Welche Adverbien kommen vor?
#w: [ pos="ADV" ]
- Welche koordinierten Nominalphrasen kommen vor?
#p: [ cat="CNP" ]
- Welche Dativobjekte kommen vor?
[ ] >DA #da: [ ]
NB: [] > [] = unmittelbare Dominanz und [] . [] = lineare Präzedenz …
TIGERSearch-Wettbewerb
- Wieviel mehr Akkusativobjekte als Dativobjekte hat es in den ersten 10000 Sätzen des
NEGRA-Korpus? (A) 4.5 (B) 6.5 (C) 7.5
- Wie gross ist der Anteil an VP, welche überkreuzende Kanten haben im NEGRA-Korpus?
(A) 25% (B) 50% (C) 66%
Weiteres