Programmierprojekt "Monolinguale automatische Termextraktion"
BearbeiterIn: Andreas Haupt
Betreuer: Simon Clematide
Einführung
- Die automatische Extraktion von Termkandidaten ist eine praktische Anwendung der Computerlinguistik. Verschiedene linguistische und quantitative Ansätze wurden in der Vergangenheit in Projekten und kommerziellen Produkten dazu verwendet.
Ziel und Zweck
- In diesem Projekt soll ein experimentelles System erstellt werden, das zwei relativ einfache Ansätze zur Extraktion und Bewertung von Termkandidaten aus deutschsprachigen Texten kombiniert: Kollokationserstellung im Stil von Chamblon sowie Assoziationsstärkeberechnung mit dem Simple Matching Coefficient. Ziel ist es, aus einem Korpus die Termkandidaten mit ihrer berechneten Termhaftigkeit zu gewinnen.
Arbeitsschritte
- Beschaffen eines geeigneten Textkorpus mittlerer Grösse (Verwaltung, Recht)
- Implementation des Kollokationsalgorithmus, wie er in Chamblon Termextraktor verwendet wird.
- Anpassen des System- und Stoppwörterbuchs
- Erstellen einer einfachen (prompt-orientierten) Umgebung für das Erstellen von Benutzerwörterbüchern aus einem Korpus
- Erstellen eines korpusspezifischen Benutzerwörterbuchs
- Implementation und Anpassung des Simple Matching Coefficient für die Assoziationsstärke als Mass von Termhaftigkeit
- Qualitative Evaluation und Einschätzung der Stärken und Schwächen des Ansatzes; Einschätzung des Einflusses des Benutzerwörterbuchs und weiterer Faktoren
Anforderung
- Kenntnisse in PERL
- Experimentierfreude
Benötigte Ressourcen
- Stoppwortliste, d.h. Liste der geschlossenen Wortkategorien
- Vollformenlexikon
- ev. getaggter und lemmatisierter Korpus
Literatur und Links
Simon Clematide