Programmierprojekt "Automatische Morphologische Annotation von NEGRA"

BearbeiterIn: Peter Farkas

Betreuer: Simon Clematide

Einführung

Das NEGRA-Korpus beinhaltet nebst der syntaktischen Information für einen Teilkorpus (60'000 Token) auch morphologische Information. Ein Teil der morphologischen Information lässt sich mit Hilfe der syntaktischen Information und einem geeigneten Morphologieanalyse-Programm automatisch berechnen. Es bleibt jedoch immer ein Teil zurück, der nur manuell entscheidbar ist bzw. ein Teil, wo eine gewisse Unterspezifikation von morphologischen Merkmalen bleiben muss.

Ziel und Zweck

Ziel dieses Programmierprojekts ist es, die syntaktischen Informationen aus NEGRA mit den morphologischen Informationen aus GERTWOL zu vereinigen und die einigermassen eindeutig festlegbare morphologische Information im Format von NEGRA zu kodieren.

Arbeitsschritte

  1. Studium des syntaktischen und morphologischen Formats von NEGRA; Studium der aus GERTWOL gewonnenen morphologischen Analysen aller Wortformen aus NEGRA
    1. Umsetzung des NEGRA-Korpus und der GERTWOL-Analysen in geeignete XML-Dokumente (unter Berücksichtigung gängiger Kodierung wie etwa im TIGER-Projekt)
  2. Erstellen eines Rasters darüber, welche morphologischen Kategorien (innerhalb welcher Phrasen) eindeutig, einigermassen zuverlässig und nicht zuverlässig automatisch bestimmt werden können. Erstellen eines Unterrasters, welche Teilkategorien unterspezifiziert bleiben können/müssen. Priorisierung derjenigen Kategorien, welche sinnigerweise zuerst bearbeitet werden sollen.
  3. Implementierung der Integration der morphologischen Annotation in XML/XSLT in einer deklarativen modularen Form (so etwas wie Annotations-Regeln)
  4. Test und Evaluierung der Implementierung anhand des bereits morphologisch annotierten Teilkorpus. Die Evaluation sollte Aussagen auf der Basis von "Regeln" erlauben, d.h. wie oft war die Regel für ein morphologisches Merkmal korrekt, wie oft falsch?
    1. Implementation eines Export-Filters, welcher aus dem angereichterten NEGRA im XML-Format das zeilenbasierte Exportformat erzeugt.

Anforderung

Benötigte Ressourcen

Literatur und Links


          Simon Clematide