Programmierprojekt Generierungsgrammatik für die Spanische Malaga-Morphologie

BearbeiterIn: N.N.

Betreuer: Cerstin Mahlow

Einführung

Die Spanische Malaga-Morphologie (SMM) analysiert spanische Wortformen. Die Ergebnisse enthalten Informationen zu POS, Grundform, grammatikalischen Eigenschaften, Segmentierung in beteiligte Allomorphe etc. SMM liefert sowohl graphische als auch textuelle Ausgaben. Über Schnittstellen können die Analyseergebnisse weiterverarbeitet werden, eine interaktive Benutzung von SMM ist damit möglich ebenso wie die Analyse grosser Korpora.

Aufgrund des Regelformats können Malaga-Grammatiken nicht einfach «umgedreht» und so zur Generierung statt zur Analyse von Wortformen verwendet werden. Der Grossteil der Informationen, die zur Generierung nötig sind (z. B. Angaben zu Stammänderungen und Themavokal), ist jedoch bereits im SMM-Lexikon vorhanden.
Aus dem Lexikoneintrag für alentar:

[Lemma: "alentar", POS: Verb, Valencies: <Reflexive, Intransitive>, AlloMark: "al{e}nt", AlloForm: Allo_Norm_eie1]
werden über Regeln so die Allomorphe alent, alient und aliént erzeugt, die jeweils Informationen zu POS, Valenzen, Konjugation, möglichen enklitischen Pronomina und Bedingungen für vorhergehende und nachfolgende Allomorphe haben. Hier das Beispiel für alent:
"alent": [POS: Verb, 
          Valencies: <Reflexive, Intransitive>, 
          AlloMark: "al{e}nt", 
          AlloForm: Allo_Norm_eie1, 
          BaseForm: "alentar", 
          Themevocal: a, 
          PossibleEnclitics: 1, 
          Pre: <
               <<POS, Prefix>>, 
               <<POS, Adverb>>, 
               <<POS, Substantive|Adjective>, <WellFormed, yes>>, 
               <<LastPOS, Punctuation>>
               >, 
          Suc: <
               <<POS, Themevocal>>, 
               <<POS, Suffix>>, 
               <<POS, Interfix>>, 
               <<POS, VerbInflection>, <Allo_i, <no, encl, encl2>>, 
                                       <Tempus, <Ger, Inf, PP, P_ind_Pl1, P_ind_Pl2, P_imp_Pl2, P_sub_Pl1, P_imp_Pl1, P_sub_Pl2, 
                                                 Imp_ind_Sg1, Imp_ind_Sg2, Imp_ind_Sg3, Imp_ind_Pl1, Imp_ind_Pl2, Imp_ind_Pl3, 
                                                 Imp_sub_Sg1, Imp_sub_Sg2, Imp_sub_Sg3, Imp_sub_Pl1, Imp_sub_Pl2, Imp_sub_Pl3, 
                                                 F_ind_Sg1, F_ind_Sg2, F_ind_Sg3, F_ind_Pl1, F_ind_Pl2, F_ind_Pl3, F_sub_Sg1, 
                                                 F_sub_Sg2, F_sub_Sg3, F_sub_Pl1, F_sub_Pl2, F_sub_Pl3, Ind_Sg1, Ind_Sg2, 
                                                 Ind_Sg3, Ind_Pl1, Ind_Pl2, Ind_Pl3, Pot_Sg1, Pot_Sg2, Pot_Sg3, Pot_Pl1, 
                                                 Pot_Pl2, Pot_Pl3>>>
               >, 
          SucFon: aeiou, 
          FinalPOS: Verb, 
          FilledEnclitics: 0, 
          WellFormed: no, 
          Conjugation: semi_irregular, 
          Allo_i: <no, encl, encl2>, 
          Allomorph: "alent"]
Noch ein Beispiel für den Allomorpheintrag zum Flexionssuffix abais
"abais": [POS: VerbInflection, 
          Structure: <TV&MT&PN>, 
          Themevocal: a, 
          Category: <[Tense: Imperfect, 
                         Mood: Indicative, 
                         Person&Number: Pl2]>, 
          Tempus: <Imp_ind_Pl2>, 
          BaseForm: "abais", 
          Pre: <<<POS, Verb>, <Themevocal, a>, <Allo_i, <no>>>>, 
          Suc: <<<>>>, 
          Allo_i: <no>, 
          WellFormed: yes, 
          FinalPOS: Verb, 
          Allomorph: "abais"]

Ziel und Zweck

Es soll eine Generierungsgrammatik entwickelt werden, die auf denselben Daten (Grundformlexikon und über Allomorphregeln generierte Allomorphe) basiert wie die Analysegrammatik. Die Generierungsgrammatik «analysiert» eine Eingabe wie etwa «alentar Verb Imp_ind_Pl2» und liefert als Resultat die Wortform «alentabais».

Es soll sowohl möglich sein, eine konkrete Wortform generieren zu lassen, wie auch alle Formen eines Tempus und zusätzlich das gesamte Paradigma eines Verbs.

Arbeitsschritte

Das grundsätzliche Vorgehen ist dabei folgendes:

  1. Aus dem SMM-Lexikon wird (automatisch mithilfe eines Malaga-Werkzeugs) ein Lexikon generiert, das zu jeder Grundform alle möglichen Allomorphe enthält.
  2. Dann muss eine Grammatik geschrieben werden, die unter Verwendung der kombinatorischen Informationen aus dem Lexikon die richtige Stammform mit den nötigen Suffixen konkateniert. Da diese Grammatik stark schematisch sein wird, lässt sie sich möglicherweise auch automatisch erzeugen.

Anforderung

Ressourcen

Literatur und Links


Cerstin Mahlow
Last modified: Tue Aug 04 12:28:17 CEST 2008