Korpus-Aufgaben 2

18. November 2002

Konsistenz-Prüfung

Easy! Prüfen Sie für einen Korpus, wie konsistent die Verwendung von Bindestrich-Komposition vs. Nicht-Bindestrich-Komposition genutzt wird.

Hinweis zur Realisierung: Schreiben Sie ein Programm, das im ersten Schritt durch ein Korpus läuft und zwei Hash-Arrays anlegt:

  1. Ein Array mit allen Substantiven ohne Bindestrich (mit Auftretenshäufigkeit)
  2. Ein Array mit allen Substantiven mit Bindestrich (mit Auftretenshäufigkeit)

In einem zweiten Schritt durchläuft das Programm das zweite Array. Für jedes Word in diesem Array werden alle Bindestriche entfernt (und der jeweils folgende Buchstabe in einen Kleinbuchstaben umgewandelt) und nachgeschaut, ob die entstandene Wortform im ersten Array enthalten ist. Falls ja, werden beide Schreibvarianten mit der jeweiligen Häufigkeit ausgegeben.

Möglichkeiten der Klassenbildung ermitteln

In der Vorlesung wurden verschiedene Möglichkeiten der Klassenbildung erwähnt, die bzgl. PP-Anbindung noch nicht getestet wurden:

Wählen Sie eine dieser Möglichkeiten und untersuchen Sie, ob sich diese Möglichkeit für die Klassenbildung zur PP-Anbindung eignet.

Sie könnten z.B. so vorgehen:

  1. Bestimmen Sie, welche Kandidaten häufig vorkommen (also z.B. welches sind die häufigsten Wörter, die auf -chen enden).
  2. Wählen Sie eine überschaubare Menge der häufigsten Wörter und prüfen Sie, ob sich die äquivalenten Wörter bzgl. der Nomen+Präposition Kookkurrenzwerte (annähernd) gleich verhalten. Also z.B. nehmen Sie die 3 häufigsten Wörter auf -chen und berechnen Sie für diese Wörter sowie für die zugehörige Nicht-Diminuitiv-Form die N+P Kookkurrenzwerte. Vergleichen Sie die Kookkurrenzwerte manuell für 5 häufige Präpositionen.

Martin Volk