Morphologieanalyse und Lexikonaufbau (2. Vorlesung)
Dozent: Martin Volk(nach [Naumann 86])
Bsp.: Berg, Regal, gross, seh
Bsp.: Brom(beere), Schorn(stein), klob(ig), (un)wirsch
Bsp.: bei, auf, nein, doch, sehr
Bsp.: Vor|teil, Neben|sache, an|fang|en
z.B. Un|ver|ständ|lich|keit, Wirt|schaft|lich|keit
z.B. Vor|ver|kauf, Un|vor|stell|bar|keit
Bsp.: zeig|te, könn|te, schlief|e, ge|gang|en, ge|konn|t, bearbeit|et
Bsp.: Häus|er|n, Bär|en, Butter
Bsp.: schön|er, höch|st|e, näch|st|e
Problematisch sind Partizipien und Graduierung, da auf diese Morpheme wieder Flexionsmorpheme folgen können.:
Bsp.: ge|konn|t|e (Durchführung), bearbeit|et|es (Dokument)
Bsp.: riese|n|gross, hund|e|müde, Liebe|s|akt, Kenn|t|nis
('Interfixe' nach [Bauer 92] S.23)
(a) mit Nominativ Plural-Suffix
Auge + Arzt ==> Auge-n-arzt Schwester + Paar ==> Schwester-n-paar Uhr + Kasten ==> Uhr-en-kasten
(b) mit Genitiv Singular Suffix
Bauer + Frau ==> Bauer-s-frau Jahr + Zeit ==> Jahr-es-zeit Tag + Licht ==> Tag-es-licht Wirt + Haus ==> Wirt-s-haus
(c) mit Dativ Plural Suffix
Stern + Banner ==> Stern-en-banner Strauss + Ei ==> Strauss-en-ei
(d) Fugen-s (bei Feminina)
Arbeit + Anzug ==> Arbeit-s-anzug Geburt + Jahr ==> Geburt-s-jahr Liebe + Brief ==> Liebe-s-brief Verbindung + Tür ==> Verbindung-s-tür
Fugenelemente sind spezifisch für Deklinationsklassen der Substantive.
Abschnitt 2.7.1: "In der Regel kann ein Substantiv als Erstglied im Kompositum mit nominalem Zweitglied entweder im Nominativ oder im Genitiv Singular oder im Nominativ Plural vorkommen. ... Die Feminina weisen jedoch ein -s-Fugenelement auf, das nicht zu ihrem Flexionsparadigma gehört."
Bsp.: Hausdächer, Häusermeer
Bei einigen Deklinationsklassen ist nur ein ganz spezielles Fugenelement möglich.
Deklinationsklasse S6en --> immer -en
Bsp.: Herr-en-mantel
Deklinationsklasse S9en --> immer -s
Bsp.: Fahndungsliste
Anmerkung: Die Klassen 1-15 werden zur starken Deklination gezählt, die Klassen 16-22 zur schwachen und die Klassen 23-28 zur gemischten.
m1: Tag, Brief, Greis m1u: Bach, Saal (Säle), Kloss m2: Leib m2u: Mann, Reichtum (GenSg: Reichtums), Wald (GenSg: Waldes) m3: Minister, Japaner, Adler, Käse m3u: Vater, Bruder, Apfel m4: Lappen m4u: Faden, Ofen m5: Deckel (= m3 ??) m5u: Vogel (= m3u ??) m6: Uhu m16: Bär, Bauer, Student m17: Junge, Riese, Kollege m23: Direktor, Schmerz m24: See m25: Stachel (= m24 ??) m26: Namen (= m24 ??) Unregelmässig: Algorithmus, Globus, Bau, Kürbis
f7: Drangsal f7u: Braut, Hand, Maus f8u: Mutter, Tochter f9: Kenntnis (= f7 + Verdopplung) f10: Bar f18: Frau f19: Gabe, Harmonie, Schule f20: Uhr, Regierung (= f18 ??) f21: Tafel, Leiter (= f19 ??) f22: Ministerin, Studentin
n11: Brot, Spiel, Erlebnis (GenSg: Erlebnisses; vgl. f9) n11u: Floss n12: Kind, Ei n12u: Gut, Dorf, Dach n13: Messer, Schnitzel n13u: Kloster n14: Mädchen, Schreiben n15: Echo, Auto n27: Ohr n28: Auge Unregelmässig: Herz
Darüberhinaus gibt es im Wahrig eine sog. adjektivische Deklination für substantivierte Adjektive wie Abgeordneter, Illustrierte, Geräuchertes.
Nom.Pl. | Dat.Pl. | Gen.Sg. | Umlautung | Verdopplung |
-e | -es | - Tag(m) Brot (n) + Bach (m) Floss (n) |
Kürbis (m) Ergebnis (n) |
|
Ø | - + Hand (f) |
Kenntnis (f) |
||
-er | - Leib(m) Kind (n) + Wald (m) Dach(n) |
|||
Ø | -n | -s | - Adler (m) Messer (n) + Vater (m) Kloster (n) |
|
Ø | + Mutter (f) | |||
Ø | Ø Lappen (m) -s |
- Mädchen (n) + Faden(m) |
||
-s | Ø Bar (f) - s Uhu (m) Auto (n) |
|||
-en | Ø Frau (f) -s Ohr (n) - es Schmerz (m) -en Bär (m) - ens Herz (n) |
Beamtin (f) |
||
-n | Ø Gabe (f) - n Riese (m) - s See (m) |
Das im folgenden vorgestellte Verfahren ist angelehnt an das in der GTU (Grammatik-Testumgebung) an der Universität Koblenz in Prolog implementierte Verfahren.
falls nein: Exit falls (erstes Arg. von lex/5): Prüfe, ob der Eintrag einen Verweis auf Minilexikon hat falls ja: -> 3. falls nein: -> 4. falls (erstes Arg. von lex/4): dann 2. Arg. ist Verweis auf anderen Eintrag Prüfe, ob dieser Eintrag Verweis auf Minilexikon hat falls ja: -> 3. falls nein: -> 4.
falls nein: Exit falls ja: Informationen von Präfix, Stamm und Suffix unifizieren und zurückliefern
1. Aufteilung in P=0, St='Brot', S='e' 2. Stamm ist im Lexikon als lex('Brot', _, n11, _). /* 3. Arg. ist Verweis auf Minilex (= Klasse nach Wahrig) */ 3. Lade Minilex `n11' minilex_name(n11, 0, tab1, '', fail, (wortart=subst,genus=n) ). /* minilex_name(Name, Präfixe, Suffixe, Grundform, Stämme, Merkmale) */
Unter `minilex(tab1, ...)' finden wir die Flexionstabelle:
minilex(tab1,0,'',(numerus=sg, kasus=(nom;akk;dat))). minilex(tab1,0,e,((numerus=sg,kasus=dat); (numerus=pl,kasus= (nom;akk;gen)))). minilex(tab1,0,es,(numerus=sg,kasus=gen)). minilex(tab1,0,s,(numerus=sg,kasus=gen)). minilex(tab1,0,en,(numerus=pl,kasus=dat)).
1. Aufteilung in P=0, St='Wälde', S='r' --> St nicht im Lexikon Aufteilung in P=0, St='Wäld', S='er' 2. Stamm ist im Lexikon als lex('Wäld', 'Wald', 1). /* 2. Arg. ist Verweis auf Haupteintrag */ /* 3. Arg. ist Nr des Nebeneintrags */ lex('Wald', _, m2u, _). /* 3. Arg. ist Verweis auf Minilex (= Klasse nach Wahrig) */ 3. Lade Minilex `m2u' minilex_name(m2u,0,tab2,'',true, (wortart=subst,genus=m)). nebeneintrag_merkmal(m2u,0,numerus=sg). nebeneintrag_merkmal(m2u,1,numerus=pl).
Unter `minilex(tab2, ...)' finden wir die Flexionstabelle:
minilex(tab2,0,'',(numerus=sg, kasus=(nom;akk;dat))). minilex(tab2,0,e,(numerus=sg, kasus=dat)). minilex(tab2,0,es,(numerus=sg, kasus=gen)). minilex(tab2,0,er,(numerus=pl, kasus=(nom;akk;gen))). minilex(tab2,0,ern,(numerus=pl, kasus=dat)).
Nach bestimmtem Artikel, mit Demonstrativ- und Interrogativpronomen
z.B. das schöne Haus das zweite Haus die schönen Häuser die zwei schönen Häuser
Mask/Sg | Fem/Sg | Ntr/Sg | Plural | |
Nom | -e | -e | -e | -en |
Gen | -en | -en | -en | -en |
Dat | -en | -en | -en | -en |
Akk | -en | -e | -e | -en |
Nach unbestimmtem Artikel, negativem Artikel ("kein"), Possesivpronomen
z.B. kein schönes Haus meine schönen Häuser
Mask/Sg | Fem/Sg | Ntr/Sg | Plural | |
Nom | -er | -e | -es | -en |
Gen | -en | -en | -en | -en |
Dat | -en | -en | -en | -en |
Akk | -en | -e | -es | -en |
Nach Null-Artikel, unflektierbarem Artikel ("zwei") und vorangestelltem Genitiv-Attribut
z.B. schönes Haus aus weichem Stoff (Dat.) für weichen Stoff (Akk.) zwei schöne Häuser Peters schönes Haus Peters schöne Häuser
Mask/Sg | Fem/Sg | Ntr/Sg | Plural | |
Nom | -er | -e | -es | -e |
Gen | -en | -er | -en | -er |
Dat | -em | -er | -em | -en |
Akk | -en | -e | -es | -e |
Anmerkung: Diese Einteilung gilt auch für Adjektive im Komparativ (bessere, kleinere) und Superlativ (beste, kleinste) sowie für attributiv gebrauchte Partizipien (erleuchtete, flächendeckende) und Ordinalzahlen (erste, achte, elfte).
Wenn eine Adjektivform genau bestimmt wird bezüglich Kasus, Numerus, Genus und Deklinationsklasse, so ergeben sich für die Endungen -en und -e sehr viele Lesarten (26 bzw. 11 Lesarten). Durch systematische Unterspezifikation lassen sich diese Lesarten ohne Informationsverlust abbilden auf 10 bzw. 7 Muster nach folgendem Schema.
-en Gen (Sg) Schw (10 Muster für 26 Lesarten) Gen (Sg) Gem Dat (Sg) Schw Dat (Sg) Gem Pl Schw Pl Gem Akk Sg Masc Gen Sg Masc (Stark) Gen Sg Ntr (Stark) Dat Pl (Stark)
-e Nom Sg Fem (7 Muster für 11 Lesarten) Akk Sg Fem Nom Sg Ntr Schw Akk Sg Ntr Schw Nom Sg (Masc) Schw Nom Pl Stark Akk Pl Stark
-er Nom Sg Masc Gem (5 Muster für 5 Lesarten) Nom Sg Masc Stark Gen (Sg) Fem Stark Dat Sg Fem Stark Gen Pl Stark
-es Nom Sg Ntr Gem (4 Muster für 4 Lesarten) Akk Sg Ntr Gem Nom Sg Ntr Stark Akk Sg Ntr Stark
-em Dat Sg Masc Stark (2 Muster für 2 Lesarten) Dat Sg Ntr Stark
Hierzu ein kleines Beispielprogramm in Prolog.
Die deutschen Verben bieten auf den ersten Blick kaum Probleme für die automatische Lemmatisierung. Sie werden eingeteilt in starke (unregelmässige), schwache (regelmässige) und gemischte (nur Vokalwechsel, sonst regelmässig; z.B. nennen, senden) Konjugation. Verbleibende Probleme:
Starke Konjugation | Schwache Konjugation | |
Präsens | schwimme schwimmst schwimmt schwimmen schwimmt schwimmen |
zeige zeigst zeigt zeigen zeigt zeigen |
Präteritum | schwamm schwammst schwamm schwammen schwammt schwammen |
zeigte zeigtest zeigte zeigten zeigtet zeigten |
Konjunktiv I | schwimme schwimmest schwimme schwimmen schwimmet schwimmen |
zeige zeigest zeige zeigen zeiget zeigen |
Konjunktiv II | schwämme schwämmest schwämme schwämmen schwämmet schwämmen |
zeigte zeigtest zeigte zeigten zeigtet zeigten |
andere | schwimm(e) schwimmt geschwommen schwimmend |
zeig(e) zeigt gezeigt zeigend |
Um bei der Analyse einer Verbform die Geschwindigkeit des Zugriffs auf die morphologische Information zu erhöhen, können die Verbendungen in Zugriffstabellen (auch Indextabellen genannt) angeordnet werden. Diese Tabellen können durch die Hinzunahme eines Endungsbaums noch effizienter genutzt werden.
Einsatz: Die (potentielle) Endung einer Verbform wird abgetrennt, und es wird mit Hilfe des Stammformenlexikons geprüft, ob der verbleibende Rest ein möglicher Verbstamm ist. Falls ja, dann ist in diesem Lexikon vermerkt, zu welcher Konjugation das Verb gehört und gegebenenfalls von welchem Typ der Stamm ist. Mit diesen 3 Angaben (Konjugation, Endung, Typ des Stamms) kann in einer der folgenden Tabellen die morphologische Information ermittelt werden.
Knoten | Endung | Präsens-Stamm | Präteritum-Stamm | Konjunktiv-Stamm |
1 | -t | 3. Sg und 2. Pl Präsens; Imperativ Pl | 2. Pl Prät. | |
2 | -et | 2. Pl KonjI | 2.Pl KonjII | |
4 | -st | 2. Sg Präsens | 2. Sg Prät. | |
5 | -est | 2. Sg KonjI | 2.Sg KonjII | |
7 | -e | 1. Sg Präsens; 1. Sg und 3. Sg KonjI; Imperativ Sg | 1. Sg und 3. Sg KonjII | |
9 | -en | 1. Pl und 3. Pl Präsens; 1. Pl und 3. Pl KonjI; Infinitiv | 1. Pl und 3. Pl Prät | 1. Pl und 3. Pl KonjII |
11 | -end | Partizip Präsens | ||
12 | - | 1. Sg und 3. Sg Prät |
Knoten | Endung | |
1 | -t | 3. Sg und 2. Pl Präsens; Imperativ Pl; (Partizip Perfekt) |
2 | -et | 2. Pl KonjI |
3 | -tet | 2. Pl Prät.; 2.Pl KonjII |
4 | -st | 2. Sg Präsens |
5 | -est | 2. Sg KonjI |
6 | -test | 2. Sg Prät.; 2.Sg KonjII |
7 | -e | 1. Sg Präsens; 1. Sg und 3. Sg KonjI; Imperativ Sg |
8 | -te | 1. Sg und 3. Sg Prät; 1. Sg und 3. Sg KonjII |
9 | -en | 1. Pl und 3. Pl Präsens; 1. Pl und 3. Pl KonjI; Infinitiv |
10 | -ten | 1. Pl und 3. Pl Prät; 1. Pl und 3. Pl KonjII |
11 | -end | Partizip Präsens |