Morphologieanalyse und Lexikonaufbau (2. Vorlesung)
Dozent: Gerold Schneider
Verschiedene Sprachen setzen morphologische Prozesse ganz unterschiedlich ein. Eine übliche Sprachklassifizierung, wobei sich die Klassen allerdings nicht gegenseitig auschliessen und viele Sprachen Grenzfälle sind, ist:
Jedes Wort ist meist ein eigenständiges, unveränderliches Morphem, Morphemkombinationen sind selten. Typisch morphologische Merkmale wie Tempus, Numerus, Funktion, Kasus werden durch Wortstellung oder explizite alleinstehende Morpheme ausgedrückt, womit die morphologische Analyse für die CL relativ einfach ist. Ein typisches Beispiel ist Chinesisch.
Sehr viele Worte sind (zum Teil sehr lange) Morphemkombinationen, vor allem mit Morphemen, die nicht eigenständig als Wort vorkommen. Die Form der Morpheme verändern sich aber nicht in Wortformen, so dass in der CL-basierten Morphologieanalyse die Morphemgrenzen gefunden werden müssen. Typische Beispiele sind Türkisch oder Finnisch.
Hier ändern sich manchmal die Morpheme selber in Wortformen, wie etwa im deutschen Umlaut. Latein und Deutsch sind stark flektionale Sprachen. Typisch für flektionale Sprachen ist das sogenannte Portmanteau-Phänomen:
Aufgrund der Morphemveränderungen ist die computerlinguistische Behandlung flektionaler Morphologie deutlich schwieriger.
werden manchmal den agglutinierenden Sprachen untergeordnet. Viele Worte sind (zum Teil sehr lange) Morphemkombinationen. Der Unterschied zu agglutinierenden Sprachen besteht darin, dass auch die Worte, die eigenständig vorkommen können (sog. Kernmorpheme, siehe gleich) gerne zu langen Kombinationen vereinen. Eskimosprachen sind polysynthetisch (und auch agglutinierend). Lange Nominalkomposita, wie man sie in Walisisch (und teilweise gar Deutsch) findet, sind polysynthetisch. Wie bei agglutinierenden Sprachen muss eine CL Morphologiekomponente die Morphemgrenzen finden.
Gemäss dieser Einteilung sind viele Sprachen mehreren Klassen zugehörig, entscheidend ist wie stark und bei welchen Phänomenen. Deutsch ist eine stark flektionale Sprache (Nomen, Verben, Adjektive), kennt aber auch agglutinierende und bei der Nominalkomposition polysyntethische Prozesse. Wir werden vereinfachte Prologlösungen für Adjektivflexion (diese Vorlesung) und für Nominalkomposition (3. Vorlesung) besprechen.
(nach [Naumann 86])
Bsp.: Berg, Regal, gross, seh
Bsp.: Brom(beere), Schorn(stein), klob(ig), (un)wirsch
Bsp.: bei, auf, nein, doch, sehr
Bsp.: Vor|teil, Neben|sache, an|fang|en
z.B. Un|ver|ständ|lich|keit, Wirt|schaft|lich|keit
z.B. Vor|ver|kauf, Un|vor|stell|bar|keit
Bsp.: zeig|te, könn|te, schlief|e, ge|gang|en, ge|konn|t, bearbeit|et
Bsp.: Häus|er|n, Bär|en, Butter
Bsp.: schön|er, höch|st|e, näch|st|e
Problematisch sind Partizipien und Graduierung, da auf diese Morpheme wieder Flexionsmorpheme folgen können (FM-FM Kombination).:
Bsp.: ge|konn|t|e (Durchführung), bearbeit|et|es (Dokument)
Bsp.: riese|n|gross, hund|e|müde, Liebe|s|akt, Kenn|t|nis
('Interfixe' nach [Bauer 92] S.23)
(a) mit Nominativ Plural-Suffix
Auge + Arzt ==> Auge-n-arzt Schwester + Paar ==> Schwester-n-paar Uhr + Kasten ==> Uhr-en-kasten
(b) mit Genitiv Singular Suffix
Bauer + Frau ==> Bauer-s-frau Jahr + Zeit ==> Jahr-es-zeit Tag + Licht ==> Tag-es-licht Wirt + Haus ==> Wirt-s-haus
(c) mit Dativ Plural Suffix
Stern + Banner ==> Stern-en-banner Strauss + Ei ==> Strauss-en-ei
(d) Fugen-s (bei Feminina)
Arbeit + Anzug ==> Arbeit-s-anzug Geburt + Jahr ==> Geburt-s-jahr Liebe + Brief ==> Liebe-s-brief Verbindung + Tür ==> Verbindung-s-tür
Fugenelemente sind spezifisch für Deklinationsklassen der Substantive.
Abschnitt 2.7.1: "In der Regel kann ein Substantiv als Erstglied im Kompositum mit nominalem Zweitglied entweder im Nominativ oder im Genitiv Singular oder im Nominativ Plural vorkommen. ... Die Feminina weisen jedoch ein -s-Fugenelement auf, das nicht zu ihrem Flexionsparadigma gehört."
Bsp.: Hausdächer, Häusermeer
Bei einigen Deklinationsklassen ist nur ein ganz spezielles Fugenelement möglich.
Deklinationsklasse S6en --> immer -en
Bsp.: Herr-en-mantel
Deklinationsklasse S9en --> immer -s
Bsp.: Fahndungsliste
Wahrig teilt die Substantive in Klassen ein, je nach
Die hohe Anzahl (28 !) an unterschiedlichen Klassen ergibt sich aus der kombinatorischen Explosion dieser drei Merkmale
Genus |
starke Deklinationsklassen: |
schwache Deklinationsklassen: |
gemischte Deklinationsklassen: |
m |
1-6 |
16-17 |
23-25 |
f |
7-10 |
18-22 |
- |
n |
11-15 |
- |
26-28 |
Starke, schwache, gemischte Deklinationsklassen:
m1: Tag, Brief, Greis m1u: Bach, Saal (Säle), Kloss m2: Leib m2u: Mann, Reichtum (GenSg: Reichtums), Wald (GenSg: Waldes) m3: Minister, Japaner, Adler, Käse m3u: Vater, Bruder, Apfel m4: Lappen m4u: Faden, Ofen m5: Deckel (= m3 ??) m5u: Vogel (= m3u ??) m6: Uhu m16: Bär, Bauer, Student m17: Junge, Riese, Kollege m23: Direktor, Schmerz m24: See m25: Stachel (= m24 ??) m26: Namen (= m24 ??) Unregelmässig: Algorithmus, Globus, Bau, Kürbis
f7: Drangsal f7u: Braut, Hand, Maus f8u: Mutter, Tochter f9: Kenntnis (= f7 + Verdopplung) f10: Bar f18: Frau f19: Gabe, Harmonie, Schule f20: Uhr, Regierung (= f18 ??) f21: Tafel, Leiter (= f19 ??) f22: Ministerin, Studentin
n11: Brot, Spiel, Erlebnis (GenSg: Erlebnisses; vgl. f9) n11u: Floss n12: Kind, Ei n12u: Gut, Dorf, Dach n13: Messer, Schnitzel n13u: Kloster n14: Mädchen, Schreiben n15: Echo, Auto n27: Ohr n28: Auge Unregelmässig: Herz
Darüberhinaus gibt es im Wahrig eine sog. adjektivische Deklination für substantivierte Adjektive wie Abgeordneter, Illustrierte, Geräuchertes.
Nom.Pl. |
Dat.Pl. |
Gen.Sg. |
+ - Umlautung (u) |
Verdopplung bei |
Klassen |
-e |
|
-es |
- Tag(m) |
Kürbis (m) |
m1 = |
Ø |
- Drangsal |
Kenntnis (f) |
f7 | ||
-er |
|
|
- Leib(m) |
|
m2 = |
Ø |
-n |
-s |
- Adler (m) |
|
m3 = |
Ø |
+ Mutter (f) |
|
f8 | ||
Ø |
Ø Lappen (m) |
|
|
m4 = | |
-s |
|
-s Uhu (m), Auto (n) |
- |
|
m6 = |
Ø Bar (f) |
- |
|
f10 | ||
-en |
|
-es Schmerz (m23) |
- |
Beamtin (f) |
|
-n |
|
-n Riese (m17) |
- |
|
|
Das im folgenden vorgestellte Verfahren ist angelehnt an das in der GTU (Grammatik-Testumgebung) an der Universität Koblenz in Prolog implementierte Verfahren.
falls nein: Backtrack falls ja: Der Eintrag (erstes Arg. von lex/4) hat einen Verweis auf Affixlexikon (drittes Arg. von lex/4) ? falls ja: -> 4. falls nein: Der Eintrag (erstes Arg. von lex/3) hat einen Verweis auf Haupteintrag (2. Arg. von lex/3) ? falls ja: -> 4. falls nein: Backtrack
falls nein: Backtrack falls ja: Informationen von Präfix, Stamm und Suffix unifizieren und zurückliefern
1. Aufteilung in P=0, St='Brot', S='e' 2. Das Suffix (S)='e' ist ein Suffix der deutschen Sprache: member(S, ["", "en", "e", "er", "es", "em", "n", "r", "s", "m"]) 3. Stamm ist im Lexikon als lex('Brot', _, n11, _). /* 3. Arg. ist Verweis auf affixlex (n11 = Klasse nach Wahrig) */ Verweis auf affixlex 'n11' : affixlex_name(n11, 0, tab1, '', fail, (wortart=subst,genus=n) ). /* affixlex_name(Name, Präfixe, Suffixe, Grundform, Stämme, Merkmale) */ 4. Unter `affixlex(tab1, ...)' finden wir die Flexionstabelle: affixlex(tab1,0,'',(numerus=sg, kasus=(nom;akk;dat))). affixlex(tab1,0,e,((numerus=sg,kasus=dat); (numerus=pl,kasus= (nom;akk;gen)))). affixlex(tab1,0,es,(numerus=sg,kasus=gen)). affixlex(tab1,0,s,(numerus=sg,kasus=gen)). affixlex(tab1,0,en,(numerus=pl,kasus=dat)). Das Suffix 'e' ist gültig und liefert die Merkmale: ((numerus=sg,kasus=dat); (numerus=pl,kasus= (nom;akk;gen)))).
1. Aufteilung in P=0, St='Wälde', S='r' 2. Suffix 'r' ist ein Suffix der deutschen Sprache. 3. Stamm 'Wälde' ist nicht im Lexikon --> Backtrack 1. Aufteilung in P=0, St='Wäld', S='er' 2. Suffix 'er' ist ein Suffix der deutschen Sprache. 3. Stamm ist im Lexikon als lex('Wäld', 'Wald', 1). % lex/3 /* 2. Arg. ist Verweis auf Haupteintrag */ /* 3. Arg. ist Nr des Nebeneintrags */ lex('Wald', _, m2u, _). % lex/4 /* 3. Arg. ist Verweis auf affixlex (m2u = Klasse nach Wahrig) */ Verweis auf affixlex 'm2u' : affixlex_name(m2u,0,tab2,'',true, (wortart=subst,genus=m)). Zusätzlich ist die Nummer des Nebeneintrags zu berücksichtigen, die Umlautung beispielsweise drückt das Merkmal numerus=pl aus: nebeneintrag_merkmal(m2u,0,numerus=sg). nebeneintrag_merkmal(m2u,1,numerus=pl). 4. Unter `minilex(tab2, ...)' finden wir die Flexionstabelle: affixlex(tab2,0,'',(numerus=sg, kasus=(nom;akk;dat))). affixlex(tab2,0,e,(numerus=sg, kasus=dat)). affixlex(tab2,0,es,(numerus=sg, kasus=gen)). affixlex(tab2,0,er,(numerus=pl, kasus=(nom;akk;gen))). affixlex(tab2,0,ern,(numerus=pl, kasus=dat)). Wir erhalten also folgende Merkmale: (numerus=pl, kasus=(nom;akk;gen)).
Nach bestimmtem Artikel, mit Demonstrativ- und Interrogativpronomen. Kennt nur 2 unterschiedliche Formen
z.B. das schöne Haus das zweite Haus die schönen Häuser die zwei schönen Häuser
|
Mask/Sg |
Fem/Sg |
Ntr/Sg |
Plural |
Nom |
-e |
-e |
-e |
-en |
Gen |
-en |
-en |
-en |
-en |
Dat |
-en |
-en |
-en |
-en |
Akk |
-en |
-e |
-e |
-en |
Nach unbestimmtem Artikel, negativem Artikel ("kein"), Possesivpronomen
z.B. kein schönes Haus meine schönen Häuser
|
Mask/Sg |
Fem/Sg |
Ntr/Sg |
Plural |
Nom |
-er |
-e |
-es |
-en |
Gen |
-en |
-en |
-en |
-en |
Dat |
-en |
-en |
-en |
-en |
Akk |
-en |
-e |
-es |
-en |
Nach Null-Artikel, unflektierbarem Artikel ("zwei") und vorangestelltem Genitiv-Attribut.
z.B. schönes Haus aus weichem Stoff (Dat.) für weichen Stoff (Akk.) zwei schöne Häuser Peters schönes Haus Peters schöne Häuser
|
Mask/Sg |
Fem/Sg |
Ntr/Sg |
Plural |
Nom |
-er |
-e |
-es |
-e |
Gen |
-en |
-er |
-en |
-er |
Dat |
-em |
-er |
-em |
-en |
Akk |
-en |
-e |
-es |
-e |
Anmerkung: Diese Einteilung gilt auch für Adjektive im Komparativ (bessere, kleinere) und Superlativ (beste, kleinste) sowie für attributiv gebrauchte Partizipien (erleuchtete, flächendeckende) und Ordinalzahlen (erste, achte, elfte).
Deutsche Nomen und Adjektive haben wesentlich mehr Paradigmen als unterschiedliche lexikalische Formen. Für die Endungsformen -en und -e ergeben sich 26 bzw. 11 Paradigmen. Eine Darstellung der Funktion von Paradigmen auf Formen (wie oben) ist deshalb komplexer als die umgekehrte Funktion von Formen zu möglichen Paradigmen, wie folgt.
Zudem lassen sich durch systematische Unterspezifikation diese Formen ohne Informationsverlust auf Muster abbilden. Die 26 Paradigmen der Form -en lassen sich beispielsweise durch nur 10 unterspezifizierte Muster abbilden. [Pollard & Sag 94: 64-7]
FORM KASUS NUMERUS GENUS DEKLINATION -en Gen (Sg) Schw (10 Muster für 26 Paradigmen) Gen (Sg) Gem Dat (Sg) Schw Dat (Sg) Gem Pl Schw Pl Gem Akk Sg Masc Gen Sg Masc (Stark) Gen Sg Ntr (Stark) Dat Pl (Stark) -e Nom Sg Fem (7 Muster für 11 Paradigmen) Akk Sg Fem Nom Sg Ntr Schw Akk Sg Ntr Schw Nom Sg (Masc) Schw Nom Pl Stark Akk Pl Stark -er Nom Sg Masc Gem (5 Muster für 5 Paradigmen) Nom Sg Masc Stark Gen (Sg) Fem Stark Dat Sg Fem Stark Gen Pl Stark -es Nom Sg Ntr Gem (4 Muster für 4 Paradigmen) Akk Sg Ntr Gem Nom Sg Ntr Stark Akk Sg Ntr Stark -em Dat Sg Masc Stark (2 Muster für 2 Paradigmen) Dat Sg Ntr Stark
Hierzu ein kleines Beispielprogramm in Prolog.
Die deutschen Verben bieten auf den ersten Blick kaum Probleme für die automatische Lemmatisierung. Sie werden eingeteilt in starke (unregelmässige), schwache (regelmässige) und gemischte (nur Vokalwechsel, sonst regelmässig; z.B. nennen, senden) Konjugation. Bei starken Verben erhält jeder Stamm einen separaten Lexikoneintrag.
Verbleibende Probleme:
|
Starke Konjugation |
Schwache Konjugation |
Präsens |
schwimme |
zeige |
Präteritum |
schwamm |
zeigte |
Konjunktiv I |
schwimme |
zeige |
Konjunktiv II |
schwämme |
zeigte |
andere |
schwimm(e) |
zeig(e) |
Um bei der Analyse einer Verbform die Geschwindigkeit des Zugriffs auf die morphologische Information zu erhöhen, können die Verbendungen in Zugriffstabellen (auch Indextabellen genannt) angeordnet werden. Diese Tabellen können durch die Hinzunahme eines Endungsbaums noch effizienter genutzt werden.
Einsatz: Die (potentielle) Endung einer Verbform wird abgetrennt, und es wird mit Hilfe des Stammformenlexikons geprüft, ob der verbleibende Rest ein möglicher Verbstamm ist. Falls ja, dann ist in diesem Lexikon vermerkt, zu welcher Konjugation das Verb gehört und gegebenenfalls von welchem Typ der Stamm ist. Mit diesen 3 Angaben (Konjugation, Endung, Typ des Stamms) kann in einer der folgenden Tabellen die morphologische Information ermittelt werden.
Knoten |
Endung |
Präsens-Stamm |
Präteritum-Stamm |
Konjunktiv-Stamm |
1 |
-t |
3. Sg und 2. Pl Präsens; Imperativ Pl |
2. Pl Prät. |
|
2 |
-et |
2. Pl KonjI |
|
2.Pl KonjII |
4 |
-st |
2. Sg Präsens |
2. Sg Prät. |
|
5 |
-est |
2. Sg KonjI |
|
2.Sg KonjII |
7 |
-e |
1. Sg Präsens; 1. Sg und 3. Sg KonjI; Imperativ Sg |
|
1. Sg und 3. Sg KonjII |
9 |
-en |
1. Pl und 3. Pl Präsens; 1. Pl und 3. Pl KonjI; Infinitiv |
1. Pl und 3. Pl Prät |
1. Pl und 3. Pl KonjII |
11 |
-end |
Partizip Präsens |
|
|
12 |
- |
|
1. Sg und 3. Sg Prät |
|
Knoten |
Endung |
|
1 |
-t |
3. Sg und 2. Pl Präsens; Imperativ Pl; (Partizip Perfekt) |
2 |
-et |
2. Pl KonjI |
3 |
-tet |
2. Pl Prät.; 2.Pl KonjII |
4 |
-st |
2. Sg Präsens |
5 |
-est |
2. Sg KonjI |
6 |
-test |
2. Sg Prät.; 2.Sg KonjII |
7 |
-e |
1. Sg Präsens; 1. Sg und 3. Sg KonjI; Imperativ Sg |
8 |
-te |
1. Sg und 3. Sg Prät; 1. Sg und 3. Sg KonjII |
9 |
-en |
1. Pl und 3. Pl Präsens; 1. Pl und 3. Pl KonjI; Infinitiv |
10 |
-ten |
1. Pl und 3. Pl Prät; 1. Pl und 3. Pl KonjII |
11 |
-end |
Partizip Präsens |