Morpheme, Flexionsparadigmen deutscher Nomen, Verben und Adjektive

Morphologieanalyse und Lexikonaufbau (2. Vorlesung)

Dozent: Gerold Schneider

Übersicht


Morphologische Sprachklassifizierungen

Verschiedene Sprachen setzen morphologische Prozesse ganz unterschiedlich ein. Eine übliche Sprachklassifizierung, wobei sich die Klassen allerdings nicht gegenseitig auschliessen und viele Sprachen Grenzfälle sind, ist:

1. Sprachen mit isolierender Morphologie

Jedes Wort ist meist ein eigenständiges, unveränderliches Morphem, Morphemkombinationen sind selten. Typisch morphologische Merkmale wie Tempus, Numerus, Funktion, Kasus werden durch Wortstellung oder explizite alleinstehende Morpheme ausgedrückt, womit die morphologische Analyse für die CL relativ einfach ist. Ein typisches Beispiel ist Chinesisch.

2. Sprachen mit agglutinierender Morphologie

Sehr viele Worte sind (zum Teil sehr lange) Morphemkombinationen, vor allem mit Morphemen, die nicht eigenständig als Wort vorkommen. Die Form der Morpheme verändern sich aber nicht in Wortformen, so dass in der CL-basierten Morphologieanalyse die Morphemgrenzen gefunden werden müssen. Typische Beispiele sind Türkisch oder Finnisch.

3. Sprachen mit flektionaler Morphologie

Hier ändern sich manchmal die Morpheme selber in Wortformen, wie etwa im deutschen Umlaut. Latein und Deutsch sind stark flektionale Sprachen. Typisch für flektionale Sprachen ist das sogenannte Portmanteau-Phänomen:

Aufgrund der Morphemveränderungen ist die computerlinguistische Behandlung flektionaler Morphologie deutlich schwieriger.

4. Sprachen mit polysynthetischer Morphologie

werden manchmal den agglutinierenden Sprachen untergeordnet. Viele Worte sind (zum Teil sehr lange) Morphemkombinationen. Der Unterschied zu agglutinierenden Sprachen besteht darin, dass auch die Worte, die eigenständig vorkommen können (sog. Kernmorpheme, siehe gleich) gerne zu langen Kombinationen vereinen. Eskimosprachen sind polysynthetisch (und auch agglutinierend). Lange Nominalkomposita, wie man sie in Walisisch (und teilweise gar Deutsch) findet, sind polysynthetisch. Wie bei agglutinierenden Sprachen muss eine CL Morphologiekomponente die Morphemgrenzen finden.

Gemäss dieser Einteilung sind viele Sprachen mehreren Klassen zugehörig, entscheidend ist wie stark und bei welchen Phänomenen. Deutsch ist eine stark flektionale Sprache (Nomen, Verben, Adjektive), kennt aber auch agglutinierende und bei der Nominalkomposition polysyntethische Prozesse. Wir werden vereinfachte Prologlösungen für Adjektivflexion (diese Vorlesung) und für Nominalkomposition (3. Vorlesung) besprechen.


Morphemklassifikation

(nach [Naumann 86])

1. Kernmorpheme (auch Grund- oder Basismorpheme)

Bsp.: Berg, Regal, gross, seh

Untergruppe: gebundene Kernmorpheme (geringe Anzahl)

Bsp.: Brom(beere), Schorn(stein), klob(ig), (un)wirsch

2. Partikelmorpheme (auch grammatische Morpheme)

Bsp.: bei, auf, nein, doch, sehr

2.1. KM-PM Kombinationen

Bsp.: Vor|teil, Neben|sache, an|fang|en

3. Derivationsmorpheme (auch Wortbildungsmorpheme)

3.1. KM-DM-DM Kombinationen

z.B. Un|ver|ständ|lich|keit, Wirt|schaft|lich|keit

3.2 KM-PM-DM Kombinationen

z.B. Vor|ver|kauf, Un|vor|stell|bar|keit

4. Flexionsmorpheme

Problematisch sind Partizipien und Graduierung, da auf diese Morpheme wieder Flexionsmorpheme folgen können (FM-FM Kombination).:

Bsp.: ge|konn|t|e (Durchführung),  bearbeit|et|es (Dokument)

(5. Fugenlaute)

Bsp.: riese|n|gross, hund|e|müde, Liebe|s|akt, Kenn|t|nis


Fugenlaute

('Interfixe' nach [Bauer 92] S.23)

(a) mit Nominativ Plural-Suffix

Auge    +       Arzt    ==>     Auge-n-arzt
Schwester +     Paar    ==>     Schwester-n-paar
Uhr     +       Kasten  ==>     Uhr-en-kasten

(b) mit Genitiv Singular Suffix

Bauer   +       Frau    ==>     Bauer-s-frau
Jahr    +       Zeit    ==>     Jahr-es-zeit
Tag     +       Licht   ==>     Tag-es-licht
Wirt    +       Haus    ==>     Wirt-s-haus

(c) mit Dativ Plural Suffix

Stern   +       Banner  ==>     Stern-en-banner
Strauss +       Ei      ==>     Strauss-en-ei

(d) Fugen-s (bei Feminina)

Arbeit  +       Anzug   ==>     Arbeit-s-anzug
Geburt  +       Jahr    ==>     Geburt-s-jahr
Liebe   +       Brief   ==>     Liebe-s-brief
Verbindung +    Tür     ==>     Verbindung-s-tür

Aus den Informationen zu GERTWOL (siehe 4. Vorlesung):

Fugenelemente sind spezifisch für Deklinationsklassen der Substantive.

Abschnitt 2.7.1: "In der Regel kann ein Substantiv als Erstglied im Kompositum mit nominalem Zweitglied entweder im Nominativ oder im Genitiv Singular oder im Nominativ Plural vorkommen. ... Die Feminina weisen jedoch ein -s-Fugenelement auf, das nicht zu ihrem Flexionsparadigma gehört."

Bsp.:   Hausdächer, Häusermeer

Bei einigen Deklinationsklassen ist nur ein ganz spezielles Fugenelement möglich.

Deklinationsklasse S6en --> immer -en

Bsp.:   Herr-en-mantel

Deklinationsklasse S9en --> immer -s

Bsp.:   Fahndungsliste


Deutsche Substantiv-Klassifikation nach Wahrig: Deutsches Wörterbuch. 1996. (S.17-19)

Wahrig teilt die Substantive in Klassen ein, je nach

Die hohe Anzahl (28 !) an unterschiedlichen Klassen ergibt sich aus der kombinatorischen Explosion dieser drei Merkmale

Genus

starke Deklinationsklassen:

schwache Deklinationsklassen:

gemischte Deklinationsklassen:

m

1-6

16-17

23-25

f

7-10

18-22

-

n

11-15

-

26-28

Starke, schwache, gemischte Deklinationsklassen:

Maskulina (17 Klassen)

m1:     Tag, Brief, Greis 
m1u:    Bach, Saal (Säle), Kloss 
m2:     Leib 
m2u:    Mann, Reichtum (GenSg: Reichtums), Wald (GenSg: Waldes)
m3:     Minister, Japaner, Adler, Käse 
m3u:    Vater, Bruder, Apfel 
m4:     Lappen 
m4u:    Faden, Ofen
m5:     Deckel   (= m3  ??)
m5u:    Vogel    (= m3u ??)
m6:     Uhu 
m16:    Bär, Bauer, Student 
m17:    Junge, Riese, Kollege 
m23:    Direktor, Schmerz 
m24:    See 
m25:    Stachel  (= m24 ??)
m26:    Namen    (= m24 ??)
 
Unregelmässig: Algorithmus, Globus, Bau, Kürbis
 

Feminina (10 Klassen)

f7:     Drangsal
f7u:    Braut, Hand, Maus 
f8u:    Mutter, Tochter 
f9:     Kenntnis              (= f7 + Verdopplung)
f10:    Bar 
f18:    Frau
f19:    Gabe, Harmonie, Schule  
f20:    Uhr,  Regierung       (= f18 ??)
f21:    Tafel, Leiter         (= f19 ??)
f22:    Ministerin, Studentin 
 

Neutra (10 Klassen)

n11:    Brot, Spiel, Erlebnis (GenSg: Erlebnisses; vgl. f9) 
n11u:   Floss 
n12:    Kind, Ei 
n12u:   Gut, Dorf, Dach 
n13:    Messer, Schnitzel
n13u:   Kloster 
n14:    Mädchen, Schreiben 
n15:    Echo, Auto
n27:    Ohr 
n28:    Auge
 
Unregelmässig: Herz
 

Darüberhinaus gibt es im Wahrig eine sog. adjektivische Deklination für substantivierte Adjektive wie Abgeordneter, Illustrierte, Geräuchertes.


Ein Klassifikationsschema für deutsche Substantive

Nom.Pl.

Dat.Pl.

Gen.Sg.

+ - Umlautung (u)

Verdopplung bei

Klassen

-e

-es

- Tag(m)
- Brot (n)
+ Bach (m)
+ Floss (n)

Kürbis (m)
Ergebnis (n)

m1 =
n11

Ø

- Drangsal
+ Hand (f)

Kenntnis (f)

f7

-er

- Leib(m)
- Kind (n)
+ Wald (m)
+ Dach(n)

m2 =
n12

Ø

-n

-s

- Adler (m)
- Messer (n)
+ Vater (m)
+ Kloster (n)

m3 =
n13

Ø

+ Mutter (f)

f8

Ø

Ø Lappen (m)
-s


- Mädchen (n)
+ Faden(m)

 

m4 =
n14

-s

-s Uhu (m), Auto (n)

-

m6 =
n15

Ø Bar (f)

-

f10

-en

-es Schmerz (m23)
-en Bär (m16)
-s Ohr (n27)
Ø Frau (f18)
-ens Herz (n unregelm.)

-

Beamtin (f)



-n

-n Riese (m17)
-s See (m24)
Ø Gabe (f19)

-


Verfahren bei der (flexions-)morphologischen Analyse

Das im folgenden vorgestellte Verfahren ist angelehnt an das in der GTU (Grammatik-Testumgebung) an der Universität Koblenz in Prolog implementierte Verfahren.

1. Aufteilung des Wortes in 3 Teile: Präfix, Stamm, Suffix

2. Prüfe, ob Präfix und Suffix grundsätzlich möglich sind.

3. Prüfe, ob Stamm im Lexikon enthalten

        falls nein: Backtrack
        falls ja:        
            Der Eintrag (erstes Arg. von lex/4) 
            hat einen Verweis auf Affixlexikon (drittes Arg. von lex/4) ? 
                falls ja: -> 4.
                falls nein:
                    Der Eintrag (erstes Arg. von lex/3)
                    hat einen Verweis auf Haupteintrag (2. Arg. von lex/3) ?
                        falls ja: -> 4.
                        falls nein: Backtrack

4. Prüfe, ob Präfix und Suffix bzgl. Affixlexikon gültig sind

        falls nein: Backtrack 
        falls ja: Informationen von Präfix, Stamm und Suffix 
                  unifizieren und zurückliefern

Beispiele zur morphologischen Analyse in GTU:

1. Bsp: Eingabewort: 'Brote'

1. Aufteilung in P=0, St='Brot', S='e' 
 
2. Das Suffix (S)='e' ist ein Suffix der deutschen Sprache:
   member(S, ["", "en", "e", "er", "es", "em", "n", "r", "s", "m"])
 
3. Stamm ist im Lexikon als 
   lex('Brot', _, n11, _).   
   /* 3. Arg. ist Verweis auf affixlex (n11 = Klasse nach Wahrig) */ 
 
Verweis auf affixlex 'n11' :
   affixlex_name(n11, 0, tab1, '', fail, (wortart=subst,genus=n) ). 
   /* affixlex_name(Name, Präfixe, Suffixe, Grundform, Stämme,
   Merkmale) */
  
4. Unter `affixlex(tab1, ...)' finden wir die Flexionstabelle:
   affixlex(tab1,0,'',(numerus=sg, kasus=(nom;akk;dat))). 
   affixlex(tab1,0,e,((numerus=sg,kasus=dat); 
     (numerus=pl,kasus= (nom;akk;gen)))). 
   affixlex(tab1,0,es,(numerus=sg,kasus=gen)). 
   affixlex(tab1,0,s,(numerus=sg,kasus=gen)). 
   affixlex(tab1,0,en,(numerus=pl,kasus=dat)). 
 
Das Suffix 'e' ist gültig und liefert die Merkmale:
((numerus=sg,kasus=dat); (numerus=pl,kasus= (nom;akk;gen)))).

2. Bsp.: Eingabewort: 'Wälder'

1. Aufteilung in P=0, St='Wälde', S='r'
2. Suffix 'r' ist ein Suffix der deutschen Sprache.
3. Stamm 'Wälde' ist nicht im Lexikon --> Backtrack
 
1. Aufteilung in P=0, St='Wäld', S='er' 
2. Suffix 'er' ist ein Suffix der deutschen Sprache.
3. Stamm ist im Lexikon als 
   lex('Wäld', 'Wald', 1).  % lex/3
   /* 2. Arg. ist Verweis auf Haupteintrag */ 
   /* 3. Arg. ist Nr des Nebeneintrags */ 
 
   lex('Wald', _, m2u, _).  % lex/4 
   /* 3. Arg. ist Verweis auf affixlex (m2u = Klasse nach Wahrig) */ 
 
Verweis auf affixlex 'm2u' :
   affixlex_name(m2u,0,tab2,'',true, (wortart=subst,genus=m)).
 
Zusätzlich ist die Nummer des Nebeneintrags zu berücksichtigen,
die Umlautung beispielsweise drückt das Merkmal numerus=pl aus:
   nebeneintrag_merkmal(m2u,0,numerus=sg).
   nebeneintrag_merkmal(m2u,1,numerus=pl).
 
4. Unter `minilex(tab2, ...)' finden wir die Flexionstabelle:
   affixlex(tab2,0,'',(numerus=sg, kasus=(nom;akk;dat))).
   affixlex(tab2,0,e,(numerus=sg, kasus=dat)).
   affixlex(tab2,0,es,(numerus=sg, kasus=gen)).
   affixlex(tab2,0,er,(numerus=pl, kasus=(nom;akk;gen))).
   affixlex(tab2,0,ern,(numerus=pl, kasus=dat)).
 
Wir erhalten also folgende Merkmale:
(numerus=pl, kasus=(nom;akk;gen)).
 


Adjektiv-Deklination im Deutschen

Schwache Deklination

Nach bestimmtem Artikel, mit Demonstrativ- und Interrogativpronomen. Kennt nur 2 unterschiedliche Formen

z.B. das schöne Haus
     das zweite Haus
     die schönen Häuser
     die zwei schönen Häuser
 

Mask/Sg

Fem/Sg

Ntr/Sg

Plural

Nom

-e

-e

-e

-en

Gen

-en

-en

-en

-en

Dat

-en

-en

-en

-en

Akk

-en

-e

-e

-en

Gemischte Deklination

Nach unbestimmtem Artikel, negativem Artikel ("kein"), Possesivpronomen

z.B. kein schönes Haus
     meine schönen Häuser
 

Mask/Sg

Fem/Sg

Ntr/Sg

Plural

Nom

-er

-e

-es

-en

Gen

-en

-en

-en

-en

Dat

-en

-en

-en

-en

Akk

-en

-e

-es

-en

Starke Deklination

Nach Null-Artikel, unflektierbarem Artikel ("zwei") und vorangestelltem Genitiv-Attribut.

z.B. schönes Haus 
     aus weichem Stoff (Dat.)
     für weichen Stoff (Akk.)
     zwei schöne Häuser
     Peters schönes Haus
     Peters schöne Häuser

Mask/Sg

Fem/Sg

Ntr/Sg

Plural

Nom

-er

-e

-es

-e

Gen

-en

-er

-en

-er

Dat

-em

-er

-em

-en

Akk

-en

-e

-es

-e

Anmerkung: Diese Einteilung gilt auch für Adjektive im Komparativ (bessere, kleinere) und Superlativ (beste, kleinste) sowie für attributiv gebrauchte Partizipien (erleuchtete, flächendeckende) und Ordinalzahlen (erste, achte, elfte).


Adjektiv-Schema

Deutsche Nomen und Adjektive haben wesentlich mehr Paradigmen als unterschiedliche lexikalische Formen. Für die Endungsformen -en und -e ergeben sich 26 bzw. 11 Paradigmen. Eine Darstellung der Funktion von Paradigmen auf Formen (wie oben) ist deshalb komplexer als die umgekehrte Funktion von Formen zu möglichen Paradigmen, wie folgt.

Zudem lassen sich durch systematische Unterspezifikation diese Formen ohne Informationsverlust auf Muster abbilden. Die 26 Paradigmen der Form -en lassen sich beispielsweise durch nur 10 unterspezifizierte Muster abbilden. [Pollard & Sag 94: 64-7]

 
FORM    KASUS   NUMERUS GENUS   DEKLINATION
 
-en     Gen     (Sg)            Schw        (10 Muster für 26 Paradigmen) 
        Gen     (Sg)            Gem 
        Dat     (Sg)            Schw 
        Dat     (Sg)            Gem 
                Pl              Schw 
                Pl              Gem 
        Akk     Sg      Masc 
        Gen     Sg      Masc    (Stark) 
        Gen     Sg      Ntr     (Stark) 
        Dat     Pl              (Stark)
-e      Nom     Sg      Fem                  (7 Muster für 11 Paradigmen) 
        Akk     Sg      Fem
        Nom     Sg      Ntr     Schw 
        Akk     Sg      Ntr     Schw 
        Nom     Sg      (Masc)  Schw 
        Nom     Pl              Stark 
        Akk     Pl              Stark
-er     Nom     Sg      Masc    Gem          (5 Muster für 5 Paradigmen) 
        Nom     Sg      Masc    Stark 
        Gen     (Sg)    Fem     Stark 
        Dat     Sg      Fem     Stark 
        Gen     Pl              Stark
-es     Nom     Sg      Ntr     Gem          (4 Muster für 4 Paradigmen) 
        Akk     Sg      Ntr     Gem 
        Nom     Sg      Ntr     Stark 
        Akk     Sg      Ntr     Stark
-em     Dat     Sg      Masc    Stark        (2 Muster für 2 Paradigmen) 
        Dat     Sg      Ntr     Stark

Hierzu ein kleines Beispielprogramm in Prolog.


Verb-Konjugation im Deutschen

Die deutschen Verben bieten auf den ersten Blick kaum Probleme für die automatische Lemmatisierung. Sie werden eingeteilt in starke (unregelmässige), schwache (regelmässige) und gemischte (nur Vokalwechsel, sonst regelmässig; z.B. nennen, senden) Konjugation. Bei starken Verben erhält jeder Stamm einen separaten Lexikoneintrag.

Verbleibende Probleme:

Das Flexionsparadigma

Starke Konjugation

Schwache Konjugation

Präsens

schwimme
schwimmst
schwimmt
schwimmen
schwimmt
schwimmen

zeige
zeigst
zeigt
zeigen
zeigt
zeigen

Präteritum

schwamm
schwammst
schwamm
schwammen
schwammt
schwammen

zeigte
zeigtest
zeigte
zeigten
zeigtet
zeigten

Konjunktiv I

schwimme
schwimmest
schwimme
schwimmen
schwimmet
schwimmen

zeige
zeigest
zeige
zeigen
zeiget
zeigen

Konjunktiv II

schwämme
schwämmest
schwämme
schwämmen
schwämmet
schwämmen

zeigte
zeigtest
zeigte
zeigten
zeigtet
zeigten

andere

schwimm(e)
schwimmt
geschwommen
schwimmend

zeig(e)
zeigt
gezeigt
zeigend

Zugriffstabellen auf morphologische Information bei Verben

Um bei der Analyse einer Verbform die Geschwindigkeit des Zugriffs auf die morphologische Information zu erhöhen, können die Verbendungen in Zugriffstabellen (auch Indextabellen genannt) angeordnet werden. Diese Tabellen können durch die Hinzunahme eines Endungsbaums noch effizienter genutzt werden.

Einsatz: Die (potentielle) Endung einer Verbform wird abgetrennt, und es wird mit Hilfe des Stammformenlexikons geprüft, ob der verbleibende Rest ein möglicher Verbstamm ist. Falls ja, dann ist in diesem Lexikon vermerkt, zu welcher Konjugation das Verb gehört und gegebenenfalls von welchem Typ der Stamm ist. Mit diesen 3 Angaben (Konjugation, Endung, Typ des Stamms) kann in einer der folgenden Tabellen die morphologische Information ermittelt werden.

Indextabelle für starke Konjugation

Knoten

Endung

Präsens-Stamm

Präteritum-Stamm

Konjunktiv-Stamm

1

-t

3. Sg und 2. Pl Präsens; Imperativ Pl

2. Pl Prät.

2

-et

2. Pl KonjI

2.Pl KonjII

4

-st

2. Sg Präsens

2. Sg Prät.

5

-est

2. Sg KonjI

2.Sg KonjII

7

-e

1. Sg Präsens; 1. Sg und 3. Sg KonjI; Imperativ Sg

1. Sg und 3. Sg KonjII

9

-en

1. Pl und 3. Pl Präsens; 1. Pl und 3. Pl KonjI; Infinitiv

1. Pl und 3. Pl Prät

1. Pl und 3. Pl KonjII

11

-end

Partizip Präsens

12

-

1. Sg und 3. Sg Prät

Indextabelle für schwache Konjugation

Knoten

Endung

1

-t

3. Sg und 2. Pl Präsens; Imperativ Pl; (Partizip Perfekt)

2

-et

2. Pl KonjI

3

-tet

2. Pl Prät.; 2.Pl KonjII

4

-st

2. Sg Präsens

5

-est

2. Sg KonjI

6

-test

2. Sg Prät.; 2.Sg KonjII

7

-e

1. Sg Präsens; 1. Sg und 3. Sg KonjI; Imperativ Sg

8

-te

1. Sg und 3. Sg Prät; 1. Sg und 3. Sg KonjII

9

-en

1. Pl und 3. Pl Präsens; 1. Pl und 3. Pl KonjI; Infinitiv

10

-ten

1. Pl und 3. Pl Prät; 1. Pl und 3. Pl KonjII

11

-end

Partizip Präsens


Zusammenfassung

  1. Die Morphologiesysteme und -phänomene natürlicher Sprachen können in die Klassen isolierend, agglutinierend, inflektional und polysynthetisch eingeteilt werden.
  2. Morpheme können eingeteilt werden in Kern-, Partikel-, Derivations- und Flexionsmorpheme.
  3. Zur Beschreibung der offenen Wortarten (Adjektive, Substantive, Verben) in einem Stammformenlexikon werden diese aufgrund von formalen Merkmalen in Unterklassen eingeteilt.
  4. Um ein Stammformenlexikon mit möglichst geringem Aufwand erweitern zu können, sollte man die Merkmale in Form einer Entscheidungstabelle organisieren. [s. z.B. das Klassifikationsschema für deutsche Substantive]
  5. Um die Kombinationsvielfalt der Merkmale einzudämmen, kann man Unterspezifikation verwenden. D.h., wenn eine Wortform in allen Ausprägungen (d.h. Werten) eines Merkmals identisch ist, braucht dieses Merkmal nicht spezifiziert werden. [s. z.B. das Adjektiv-Schema]
  6. Um den Zugriff zu morphologischer Information möglichst effizient durchführen zu können, setzt man Endungsbäume und Indextabellen ein. [s. z.B. Zugriffstabellen auf morphologische Information bei Verben]


Gerold Schneider, Martin Volk
Date of last modification:
Source: http://www.ifi.unizh.ch