Programmierprojekt: Verbesserte Tippfehlerkorrektur durch Tagger-Information

Bearbeiter: Francis Schnyder

Betreuer: Simon Clematide

Einführung

In vielen Anwendungen der Sprachverarbeitung (Textverarbeitung, Maschinelle Übersetzung, Information Retrieval) müssen inkorrekt geschriebene Wortformen erkannt und korrigiert werden. Die Korrektur kann (häufig) nur nach Rücksprache mit dem Benutzer geschehen, da die intendierte Wortform nicht eindeutig bestimmt werden kann. Um diese Interaktion möglichst komfortabel zu gestalten, sollen die Korrekturvorschläge aufgrund von Tagger-Information nach Relevanz sortiert werden.

Ziel und Zweck

Im Rahmen dieser Arbeit soll die Arbeit von M. Schüssler erweitert werden, so dass intelligente kontext-abhängige Korrekturvorschläge gemacht werden. Die Korrekturvorschläge sollen im Kontext auf Grund der Tagger-Information nach Relevanz geordnet erscheinen.

Arbeitsschritte

  1. Corrector-Programm von Matthias Schüssler durcharbeiten
  2. GULP kennenlernen
  3. Ausgabeformat von Tagger und Gertwol kennenlernen
  4. Entscheidung über Corrector-Aufruf implementieren (einschl. Sonderbehandlung für Eigennamen)
  5. Taggerfilter für Corrector-Output implementieren
  6. Präsentation der Korrekturvorschläge für HTML-Seite

Anforderung

Kenntnisse in Prolog, etwas Kenntnisse in PERL und HTML

Benötigte Ressourcen

Literatur und Links

[Berghel 87]
H. Berghel: A logical framework for the correction of spelling errors in electronic documents. In: Information Processing and Management. Vol.23 (5). 1987. 477-494.
[Mays 91]
E. Mays and F.J. Damerau and R.L. Mercer: Context based spelling correction. In: Information Processing and Management. Vol.27 (5). 1991. 517-522.
[Peterson 1980]
James L. Peterson: Computer Programs for Spelling Correction: An Experiment in Program Design. Berlin: Springer Verlag. 1980.
[Schüssler 1998]
Matthias Schüssler: Dokumentation: Behandlung von unbekannten Wörtern im UIS. Programmierprojekt im SS 1998.
[Golding 1995]
Golding, A. R. (1995). A Bayesion Hybrid Method for Context-Sensitive Spelling Correction. Cambridge, Mitsubishi Electric Information Technology Center: 17. (PDF)
[Golding, A. R. and Y. Schabes 1996]
Golding, A. R. and Y. Schabes (1996). Combining Trigram-based and Feature-based Methods for Context-Sensitive Spelling Corrections. Cambridge, Mitsubishi Electric Research Laboratories. (PDF)

[Heckmann 1999] Regula Heckmann: Zusammenfassung der obigen Artikel.

[Tillenius 1996]

Efficient generation and ranking of spelling error corrections (PDF)

[Kann 1998]

Implementation aspects and applications of a spelling correction algorithm (PDF)


          Simon Clematide