Programmierprojekt Gewichtung für Analysen der Spanischen Malaga-Morphologie
BearbeiterIn: N.N.
Betreuer: Cerstin Mahlow
Einführung
Die Spanische Malaga-Morphologie (SMM) analysiert spanische Wortformen. Die Ergebnisse enthalten Informationen zu POS, Grundform, grammatikalischen Eigenschaften, Segmentierung in beteiligte Allomorphe etc. SMM liefert sowohl graphische als auch textuelle Ausgaben. Über Schnittstellen können die Analyseergebnisse weiterverarbeitet werden, eine interaktive Benutzung von SMM ist damit möglich ebenso wie die Analyse grosser Korpora.
Ziel und Zweck
Bislang bildet SMM alle möglichen Zerlegungen entsprechend den generellen Eigenschaften von Derivation, Komposition und Flexion ab. Dadurch ergibt sich jedoch jeweils eine sehr grosse Anzahl Analysen, die formal zwar möglich, aber nicht alle wahrscheinlich bzw. etymologisch belegbar sind. Bspw. können mehr als zwei Präfixe verwendet werden. Um die unwahrscheinlichen Analysen auszufiltern, soll eine Gewichtung implementiert werden.
Arbeitsschritte
- Zusammenstellung von Regeln und Gesetzmässigkeiten für Derivation und Komposition im Spanischen
- Umsetzung dieser Zusammenstellung als Implementierung eines morphologischen Filters für die SMM und eventuell Ergänzung der Allomorphie- und Konkatenationsregeln der SMM
- Evaluation der Implementierung
Anforderung
- Gute Spanischkenntnisse
- grundlegende Programmierkenntnisse
- Bereitschaft, sich eine weitere Programmiersprache (Malaga) anzueignen
Ressourcen
- Malaga (frei verfügbar)
- Spanische Malaga-Morphologie (frei verfügbar)
Literatur und Links
- Cerstin Mahlow (2001): Automatische Wortformanalyse für das Spanische, Magisterarbeit
- Cerstin Mahlow: Implementierung der SMM, online zugänglich
- Björn Beutel (2008): Malaga 7.12 User's and Programmer's Manual erhältlich von der Malaga-Webseite
Cerstin Mahlow
Last modified: Thu Jul 24 11:28:17 CEST 2008