Korpusuntersuchungen zur Präposition 'mit'

Auflösung von Mehrdeutigkeiten bei der PP-Anbindung durch Kookkurrenz-Wahrscheinlichkeiten

Beobachtungen

Aus der Computer Zeitung 1994 (Konradin Verlag) wurden 250 Sätze extrahiert, die die Buchstabenfolge ' mit ' enthalten. Diese Sätze wurden manuell ausgewertet.

1. Fragestellung
  1. Wie oft ist mit eine Präposition?
  2. Wie oft ist mit ein abgetrennter Präfix?
  3. Kommt mit in anderer Funktion vor?
1. Ergebnisse
  1. 244 mal ist mit eine Präposition.
  2. 2 mal ist mit ein abgetrennter Präfix.
    In der Fertigungstechnik halten die Europäer 
    im Spitzenfeld souverän mit.
  3. 4 mal ist mit ein Adverb
    In die Bilanz müssen aber die Umweltbelastungen 
       dieser Produkte mit aufgenommen werden.
    Das einzelne Kraftfahrzeug wird in seine Verkehrsumgebung 
       mit einbezogen.

2. Fragestellung
  1. Wie oft ist die mit-PP eindeutig einem Nomen zuzuordnen? Eine mit-PP kann eindeutig einem Nomen zugeordnet werden, wenn sie
  2. Wie oft ist die mit-PP einem Nomen zuzuordnen, steht aber an mehrdeutiger Position?
    In der US-Presse wird bereits von einem möglichen Merger 
    mit Borland gemunkelt.
  3. Wie oft ist die mit-PP eindeutig einem Verb zuzuordnen? Eine mit-PP kann eindeutig einem Verb zugeordnet werden, wenn sie
  4. Wie oft ist die mit-PP einem Verb zuzuordnen, steht aber an mehrdeutiger Position?
    Über die Chancen sprach die Computer Zeitung 
    mit Franz Niedermaier.
  5. Wie oft ist die mit-PP weder einem Nomen noch einem Verb (sondern z.B. einem Adjektiv) zuzuordnen?
    Die CD-ROMs von NEC sind kompatibel mit seinen PC9800 und ...
  6. Wie oft ist eine PP-Anbindung auch für einen Menschen unentscheidbar?
    Die beiden HP-Rechnerfamilien verwenden also die Prozessoren 
    mit einem reduzierten Befehlssatz.
2. Ergebnisse
  1. mit-PP eindeutig zu einem Nomen: 37
  2. mit-PP zu Nomen, aber an mehrdeutiger Position: 41
  3. mit-PP eindeutig zu einem Verb: 99
  4. mit-PP zu Verb, aber an mehrdeutiger Position: 52
  5. mit-PP zu Adjektiv: 7
  6. nicht entscheidbar: 10

Probleme: Wie sind idiomatische Wendungen zu zählen/behandeln ?

zwei Fliegen mit einer Klappe schlagen
mit dem X rechnen
mit Argus-Augen verfolgen
Hand in Hand gehen mit
gemeinsam mit

Beobachtung: Die Fälle, bei denen die mit-PP an mehrdeutiger Position steht, teilen sich ungefähr gleichmässig auf Nomen- und Verbanbindung auf.

Idee: Nur wenn klar ist, ob das jeweilige Nomen oder das Verb die mit-PP stärker binden, kann die Mehrdeutigkeit aufgelöst werden.


3. Fragestellung
  1. Wie kann man die Kookkurrenz-Wahrscheinlichkeit (= Bindungsstärke) für Nomen + mit-PP berechnen?
  2. Wie kann man die Kookkurrenz-Wahrscheinlichkeit (= Bindungsstärke) für Verb + mit-PP berechnen?
Vorgehen für Nomen + mit-PP

Korpus: 2 Jahrgänge Computer Zeitung mit rund 2.5 Mio Token (enthält rund 25.000 mit-Sätze)

Ergebnisse
              Umgang;   147;   155;    0.9483871 
          Verglichen;    11;    12;    0.9166667  *
            Zusammen;    90;   104;    0.8653846  *
           Gemeinsam;    61;   107;    0.5700935  *
      Zusammenarbeit;   256;   575;    0.4452174 
        Zusammenhang;    93;   239;    0.3891213 
          Gesprächen;    13;    35;    0.3714286 
  Auseinandersetzung;    19;    53;    0.3584906 
       Beschäftigung;    11;    32;    0.3437500 
           Interview;    23;    74;    0.3108108 
         Kooperation;   126;   424;    0.2971698 
       Partnerschaft;    31;   106;    0.2924528 
           Gespräche;    42;   144;    0.2916667 
       Verhandlungen;    36;   142;    0.2535211 
       Kooperationen;    43;   172;    0.2500000 
            Gespräch;    30;   123;    0.2439024 
          Verbindung;   133;   572;    0.2325175 
         Interaktion;    12;    53;    0.2264151 
            Abkommen;    30;   135;    0.2222222 
          Abstimmung;    13;    59;    0.2203390 
              Dialog;    23;   113;    0.2035398 
       Zusammenspiel;    16;    80;    0.2000000 
...
       Informationen;    23;  1503;    0.0153027 
                 Und;    19;  1256;    0.0151274  * 
                  AG;    17;  1245;    0.0136546  
        Unternehmens;    13;   984;    0.0132114 
             Manager;    14;  1062;    0.0131827 
             Siemens;    12;   937;    0.0128068 
             Technik;    16;  1280;    0.0125000 
                GmbH;    24;  1929;    0.0124417 
                  NT;    11;   908;    0.0121145 
            Beispiel;    16;  1389;    0.0115191 
         Technologie;    12;  1097;    0.0109389 
              Europa;    12;  1152;    0.0104167 
               Japan;    11;  1146;    0.0095986 
                 Sie;    23;  2691;    0.0085470  *
         Entwicklung;    18;  2259;    0.0079681 
Vorgehen für Verben + mit-PP
  1. Alle Sätze mit Tagger getaggt. Mögliche Fehlerquellen: Der Tagger arbeitet approximativ. Nach unseren Auszählungen liegt er bei über 90% Korrektheit, was bedeutet, das er immer noch recht viele Fehler macht.
  2. Die getaggten Sätze werden durch ein Clause-Boundary Detection Programm segmentiert. (Dieses Programm arbeitet mit knapp 90% Vollständigkeit bei rund 95% Korrektheit.)
  3. Nehme alle Clauses, in denen genau ein Vollverb und gleichzeitig 'mit' vorkommt. Wenn mehr als ein Vollverb vorkommt, hat meist die Clause-Boundary Detection versagt. Durch das Ignorieren dieser Fälle, gleiche wir das aus. Wir erhalten 17547 Clauses (VV + 'mit').
  4. Sortiere alle 'mit' aus, die vom Tagger als abgetrennter Verpräfix bewertet wurden (das sind 127 Vorkommen, vor allem mit den Verben helfen, teilen, mischen, wirken, geben, bestimmen, halten).
  5. Zähle, wie oft eine Verbform vorkommt. Aus den insgesamt 17547 Tokens werden somit 3181 Verbform-Tokens mit Häufigkeitsangaben.
  6. Lasse diese Verbform-Tokens durch GERTWOL analysieren. Wir erhalten 1677 Lemmas (Verb-Types), wobei die Häufigkeit der Tokens aufsummiert wird. Mögliche Fehlerquellen: Eine Verbform kann zu mehreren Lemmas gehören (wie z.B. 'rasten'). Wir nehmen immer nur das erste von Gertwol gelieferte Lemma. (Das ist willkürlich.) Wir erhalten auf diese Art 286 Verben mit einer Häufigkeit > 10.
Ergebnisse
2016 sein
665 arbeit~en			1760		0.38
287 rechn~en			 695		0.41
246 entwickel~n			2340		0.11
243 komm~en			2850		0.085
237 bring~en			1496		0.16
228 mach~en
214 steh~en
212 beginn~en
...
49 ver|hand~el~n		 85		0.58
49 bild~en			446		0.11
48 kämpf~en			113		0.42
48 er|laub~en			657		0.0731
48 ent|steh~en			612		0.0784

Dann können z.B. die folgenden Mehrdeutigkeiten aufgelöst werden:

Der Assistent der Geschäftsleitung arbeitet bereits seit vier 
Jahren mit einem Management-Informationssystem ...
     
                 X+mit  abs.Wert Quotient
   ----------------------------------------
     Jahren;       57;  2672;    0.0213323 
     arbeit~en	   665;  1760;	   0.38

Seit 1982 arbeitete das Standardisierungs-Gremium in enger 
Zusammenarbeit mit IEEE an den Basisnormen.

     Zusammenarbeit;   256;   575;    0.4452174 
     arbeit~en	        665;  1760;    0.38

Die Computer arbeiten auch als Server mit Microsofts 
Hochleistungsbetriebssystem Windows NT.
              
     Server;           52;   1344;    0.0386905 
     arbeit~en	       665;   1760;    0.38

Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch