VL 468:Programmiertechniken in der Computerlinguistik (PCL) II (Sommer 2005)

Dozent:
lic. phil. Simon Clematide
Zeit:
Freitag 14.15 - 16h
Ort:
Hörsaal KOL I 321
Übungsstunden: Di 12-14h oder Do 14-16h (ab 2. Semesterwoche)
Akzesspruefung und APS-Pruefung PCL II: Freitag 1. Juli 15.15-16h KOL I 321

(Wiederholungsprüfung PCL I: Freitag 1. Juli 14.15-15h KOL I 321: Wer mich bis jetzt noch nicht kontaktiert hat, soll es gleich bei mir per E-Mail machen.)

Beschreibung

Der Kurs setzt auf "Programmiertechniken in der Computerlinguistik I" auf. Wichtige Formalismen, Datenstrukturen und Algorithmen für die Computerlinguistik werden präsentiert und in der Programmiersprache Prolog implementiert. In regelmässigen Übungen (2h pro Woche) sollen die im Kurs vermittelten Techniken der Syntax- und Morphologieverarbeitung zur praktischen Programmierfertigkeit der Teilnehmenden werden. Inhaltlich Bezüge ergeben sich insbesondere mit der Vorlesung "Einführung in die Computerlinguistik I" sowie "Lexikonaufbau und Morphologie-Analyseverfahren".

Lesetipp für geschichtlich interessierte Prolog-Interessierte

Programm

Die Liste der Themen und Ziele für die Teilakzessprüfung PCL II.
Die Seite zum Erstellen der QUIZ, welche aus 3 einfachen Verständnisfragen bestehen sollen.
Die Abstracts stammen von Studierenden des Kurses vom Sommersemester 2004. Verbesserungsvorschläge sind jederzeit willkommen.
Datum
Folien
Übungen Hinweise/ Materialien Abstracts von Studierenden
1. April
Titelblatt
Inhalts-/Stichwortverzeichnis
Organisatorisches
Literaturhinweise(wie PCL I WS)
Endliche Automaten
Übung 1
Leichtes QUIZ zu Endlichen Automaten (von Carolina W.) abs_ea.html
7. April
Endliche Automaten Techniken
Mengenprädikate
Übung 2
rtn.txt
lachen.pl.txt

Anspruchsvolles QUIZ zu RTN (von Thomas K.)

Leicht (verspätetes) QUIZ zu Mengenprädikaten (von Oliver W.)

Quell-Kode, um selbst herauszufinden wie gross der Unterschied zwischen interpretierten und kompilierten Automaten ist.

15. April
Tokenizer
Übung 3

tokenizer.txt
tokenize_file.txt
cz.txt

Überraschendes QUIZ zum Tokenizer (von Christian H.)

ILAP: Zwei Prolog-Tokenizer im Vergleich

22. April
Reguläre Mustererkennung

Semantische Restriktionen und offene Listen

Übung 4

Ziemlich Prolog-bezogenes QUIZ zu regulärer Mustererkennung (von Roman H.)

ILAP: Praktische Einführung ins Pattern Matching

ILAP: Datumserkennung

Xerox-Finite-State-Demo

Transducer-Tokenizer-Input für Demo

29. April
Komposition und Differenzlisten
Übung 5

Kompetenzgefühlverstärkendes QUIZ zu Differenzlisten (von Karl D.) abs_diff.html
6. Mai
Morphologie und Buchstabenbäume
Übung 6 dcg_morph.txt trie_morph.txt

Selbstverschuldetes QUIZ zu Buchstabenbäumen (von Simon C.) abs_mbb.html
13. Mai
Left-Corner-Parsing
Übung 7
lcp.txt

Zugängliches QUIZ zum Left-Corner-Parsing (von Silvan T.) abs_lcp.html

lc_link-Relation berechnen fuer beliebige Grammatiken: compute_lc_link.txt

20. Mai
Dynamische Prädikate
Charts
Übung 8

td_chart.txt td_chart_c.txt

Ein QUIZ zum (Top-Down-)Chart-Parsing (von Maya B.) abs_charts.html

Für alle, die hinter die Kulissen der Prolog-Implementation mit der Warren-Abstract-Maschine schauen wollen: http://www.vanx.org/archive/wam/wam.html

27. Mai
Earley Parser
Übung 9
earleyp.txt
verbose_earleyp.txt

Earleys Originalartikel

earley_full.txt (Earley-Parserkode mit Behandlung von Tilgungsregeln und Subsumption, mit Korrektur von 23.6.05)

abs_earley.html
3. Juni
Charts: Subsumption
Übung 10
gram_subsume.txt

10. Juni
Merkmalstrukturen
Übung 11

Ein gemeinschaftlicher QUIZ zu Merkmalstrukturen (von Sandra L. und Slava K.) Stephan Müllers Parser

Hinweis für alle, dies ganz genau und formal wissen wollen: B. Carpenter. The logic of typed feature structures : with applications to unification grammars, logic programs and constraint resolution. Number 32 in Cambridge tracts in theoretical computer science. Cambridge, 1992.

17. Juni
Merkmalstrukturen in Prolog
Grammatikentwicklung
Übung 12

gulp.txt

abs_ms.html

Der Satz "Weil er gut singen gekonnt hat" ist auf dem Übungsblatt fälschlicherweise als grammatisch korrekt notiert. Bitte ignoriert diesen Satz in den Uebungen erstmals. Wer interessiert ist, kann versuchen, die Regularitäten mit dem Ersatzinfinitiv und dem Stellungswechsel mit Grammatikregeln einzufangen. Dies ist dann aber schon ein Meister- und kein Gesellenstück mehr

24. Juni
First-Argument-Indexing
Last-Call-Optimization
Software-Entwicklung mit Prolog
1. Juli
Teilakzessprüfung

Unterlagen

Das vollständige und nummerierte Folienskript. Diese Unterlagen können ab Kopiervorlage selber kopiert werden oder als Online-Dokument im Adobe-Acrobat-Format zum Betrachten oder Ausdrucken heruntergeladen werden. Falls Probleme beim Drucken auftreten, bitte Acrobat Reader Version 5 verwenden. Im Skript sind zu den jeweiligen Kapiteln noch separate Literaturhinweise vermerkt.

Für längere Programme wird der Quelltext manchmal separat als Textdatei zugänglich gemacht. Die Dateiendung ist dabei abweichend von der Prolog-Konvention nicht .pl, sondern .txt, da die meisten Web-Browser sonst den Text nicht anzeigen.

Die Übungen sind bezüglich ihres Schwierigkeitsgrads markiert:

Übungen, welche als freiwillig markiert sind, sollten von Leuten mit knappem Zeitbudget ignoriert werden.

Infomaterial

Übungen

Leitung: Daniela Landert
Ort: Rämistr.74, RAI-J003
Daten: Die 2 Übungsstunden werden doppelt geführt: Dienstag 12-14h sowie Donnerstag 14-16h.

Dank

Herzlichen Dank an Sascha Brawer, dessen Unterlagen von älteren Kursen weiterentwickelt bzw. -verwendet werden durften!