14.3.  Kollokationen

Kookkurrenz

Kookkurrenz (Miteinandervorkommen)

Zwei Wortformen kommen miteinander in einer Texteinheit vor.

Typische Texteinheiten für Kookkurrenzanalysen

Wie zufällig ist Sprache?

Wenn alle Wörter unabhängig voneinander per Zufall geäussert werden würden, hätten Kookkurrenzen die Wahrscheinlichkeit von unabhängigen Ereignissen: p(w1w2) = p(w1) × p(w2)

Effektiv kommen viele Kookkurrenzen viel zu häufig vor, um als unabhängige Ereignisse gelten zu können.

Statistische Kollokationsmasse

Kollokation als statistisch signifikante Kookkurrenz

“if two words are involved in a collocation then the words must appear together significantly more often than expected by chance.” [SMADJA 1993]

Typische Probleme für statistische Ansätze

14.3.1.  Biemann et al. (2004)

Kollokationen von Wortformen mit Signifikanz


pict
Quelle: [BIEMANN et al. 2004b, 105]

Abbildung 14.2: Kollokationen zu welchem Wort?

Signifikante Kollokationen nach [HEYER et al. 2001]
Die Signifikanz der Kollokation eines Worts A zum Wort B, kurz sig(A,B) ergibt sich aus

            x − klog(x)+ log(k!)
sig(A,B ) = --------------------
                   log (n )

Einschränkung

Diese Formel dient als effiziente Annäherung, sofern 2x > k. [LäUTER 2002]

Eigenschaften des Signifikanzmasses

Homogenisierung von Kollokationsmengen

Problem

Kollokationen mit hoher Signifikanz sind (semantisch) heterogen.

Ideen

Definition 14.3.1 (Kollokation höherer Stufen). Anstelle der Vorkommen in Sätzen wird das Vorkommen in signifikanten Kollokationen dieser Sätze gezählt. Im Allgemeinen bauen Kollokationen n-ter Stufe auf Kollokationsmengen der Stufe n 1 auf.

Anreicherung (augmentation) von Kohyponymen

Algorithmus nach [BIEMANN et al. 2004b]

  1. Nehme mindestens zwei synonyme (oder eng hyponyme) Wortformen als Startmenge.
  2. Bilde die Kollokationsmengen 2. (oder 3.) Stufe für jedes Startelement.
  3. Schneide die erhaltenen Mengen; in der Schnittmenge finden sich viele Kohyponyme.

Beispiel 14.3.2 (Kohyponym-Kandidaten aus Kollokationsmengen 3. Stufe [BIEMANN et al. 2004a]).

Kollokationsprofile

Definition 14.3.3 (Ähnlichkeit von Kollokationsmengen). Die Ähnlichkeit der Kollokationsmengen der beiden Wortformen A und B wird berechnet, indem der Anteil der gemeinsamen Wortformen gezählt wird, welcher sich in den Satzkollokationen von jedem Element der Kollokationsmenge von A bzw. B befindet.

Kombination von Signifikanz und Ähnlichkeit

Beispiel: “Elefant”


pict

Abbildung 14.3: Kollokationssignifikanz und -Ähnlichkeit