Programmierprojekt "Monolinguale automatische Termextraktion"

BearbeiterIn: Andreas Haupt

Betreuer: Simon Clematide

Einführung

Die automatische Extraktion von Termkandidaten ist eine praktische Anwendung der Computerlinguistik. Verschiedene linguistische und quantitative Ansätze wurden in der Vergangenheit in Projekten und kommerziellen Produkten dazu verwendet.

Ziel und Zweck

In diesem Projekt soll ein experimentelles System erstellt werden, das zwei relativ einfache Ansätze zur Extraktion und Bewertung von Termkandidaten aus deutschsprachigen Texten kombiniert: Kollokationserstellung im Stil von Chamblon sowie Assoziationsstärkeberechnung mit dem Simple Matching Coefficient. Ziel ist es, aus einem Korpus die Termkandidaten mit ihrer berechneten Termhaftigkeit zu gewinnen.

Arbeitsschritte

  1. Beschaffen eines geeigneten Textkorpus mittlerer Grösse (Verwaltung, Recht)
  2. Implementation des Kollokationsalgorithmus, wie er in Chamblon Termextraktor verwendet wird.
    1. Anpassen des System- und Stoppwörterbuchs
    2. Erstellen einer einfachen (prompt-orientierten) Umgebung für das Erstellen von Benutzerwörterbüchern aus einem Korpus
    3. Erstellen eines korpusspezifischen Benutzerwörterbuchs
  3. Implementation und Anpassung des Simple Matching Coefficient für die Assoziationsstärke als Mass von Termhaftigkeit
  4. Qualitative Evaluation und Einschätzung der Stärken und Schwächen des Ansatzes; Einschätzung des Einflusses des Benutzerwörterbuchs und weiterer Faktoren

Anforderung

Benötigte Ressourcen

Literatur und Links


          Simon Clematide