Programmierprojekt "Reimplementation des Brill-Taggers in PROLOG: Teil I"

Bearbeiterin: Sonja Brodersen

Betreuer: Simon Clematide

Einführung

Der Brilltagger ist ein Part-of-Speech-Tagger, der regelbasiert arbeitet, wobei die Regeln statistisch aus einem vorgegebenen Trainingskorpus induziert werden. Der Tagger besteht aus 4 Komponenten:

  1. Training
    1. Erstellen der morphographematischen und positionsbezogenen lexikalischen Regeln für das Taggen von unbekannten Wortformen
    2. Erstellen der kontextuellen Regeln, die nach dem ersten provisorischen Tagging angewendet werden
  2. Tagging
    1. Provisorisches Taggen der bekannten Wörter durch Tags aus Lexikon und der unbekannten Wörter durch Anwenden der lexikalischen Regeln
    2. Anwenden der kontextuellen Regeln auf die provisorische getaggte Eingabe

Ziel und Zweck

Im Rahmen dieser Arbeit sollen die Teile A.a sowie B.a in PROLOG reimplementiert werden. Die Reimplementation bezweckt zwei Dinge:

Arbeitsschritte

  1. Zusammenfassung und genaue Beschreibung des Algorithmus' von Brill für die Komponente A.a. aus Abschnitt 6.2 der Dissertation und dem Programmkode
    1. Alle Datenstrukturen, Prozeduren kurz beschreiben; Kontrollverhalten darstellen in Pseudokode
  2. Implementierungsentwurf in PROLOG
    1. Sinnvolle Repräsentationen der Datenstrukturen und Prozeduren in PROLOG (Sprachumfang ISO-Prolog)
    2. Insbesondere: Wo Listen? Wie Arrays repräsentieren? Dynamische Programmierung?...
  3. Implementierung des Entwurfs
  4. Überprüfung der Korrektheit (vs. PERL-Programm) und vs. Spezifikation
  5. Beurteilungs des Laufzeitverhaltens (Vergleich mit PERL), Benennen von Flaschenhälsen, Profiling der Prädikate, die am meisten aufgerufen werden
  6. Vorschläge (bzw. Implementationen) zur Verbesserung des Laufzeitverhaltens

Literatur/ Links:


          Simon Clematide