Korpus-Aufgaben 2
18. November 2002
Konsistenz-Prüfung
Easy! Prüfen Sie für einen
Korpus, wie konsistent die Verwendung von Bindestrich-Komposition
vs. Nicht-Bindestrich-Komposition genutzt wird.
Hinweis zur Realisierung: Schreiben Sie ein Programm, das im
ersten Schritt durch ein Korpus läuft und zwei Hash-Arrays
anlegt:
- Ein Array mit allen Substantiven ohne Bindestrich (mit
Auftretenshäufigkeit)
- Ein Array mit allen Substantiven mit Bindestrich (mit
Auftretenshäufigkeit)
In einem zweiten Schritt durchläuft das Programm das zweite
Array. Für jedes Word in diesem Array werden alle Bindestriche
entfernt (und der jeweils folgende Buchstabe in einen
Kleinbuchstaben umgewandelt) und nachgeschaut, ob die entstandene
Wortform im ersten Array enthalten ist. Falls ja, werden beide
Schreibvarianten mit der jeweiligen Häufigkeit ausgegeben.
Möglichkeiten der Klassenbildung ermitteln
In der Vorlesung wurden verschiedene Möglichkeiten der
Klassenbildung erwähnt, die bzgl. PP-Anbindung noch nicht
getestet wurden:
- Diminuitiv-Formen (Kasten - Kästchen)
- unterschiedliche Nominalisierungen (Zusammenschalten
- Zusammenschaltung)
- Zahlwörter (Hundert - Million - Milliarde)
- schwache nominal Präfixe (Vizepräsident - Präsident)
Wählen Sie eine dieser Möglichkeiten und untersuchen Sie, ob
sich diese Möglichkeit für die Klassenbildung zur PP-Anbindung
eignet.
Sie könnten z.B. so vorgehen:
- Bestimmen Sie, welche Kandidaten häufig vorkommen (also
z.B. welches sind die häufigsten Wörter, die auf -chen
enden).
- Wählen Sie eine überschaubare Menge der häufigsten Wörter
und prüfen Sie, ob sich die äquivalenten Wörter bzgl.
der Nomen+Präposition Kookkurrenzwerte (annähernd)
gleich verhalten. Also z.B. nehmen Sie die 3 häufigsten
Wörter auf -chen und berechnen Sie für diese Wörter
sowie für die zugehörige Nicht-Diminuitiv-Form die N+P
Kookkurrenzwerte. Vergleichen Sie die Kookkurrenzwerte
manuell für 5 häufige Präpositionen.
Martin Volk