|
3306: Seminar in Computerlinguistik
Sommer-Semester 2005
Lexikalische
Ressourcen in der Computerlinguistik
Prof. Dr. Michael Hess
lic. phil. Simon Clematide
Dr. Manfred Klenner
Inhalt
Lexikalische
Ressourcen sind zentral für die Entwicklung und die Evaluierung von
computerlinguistischer Software. Sie sind aber bereits zu einer empirisch
fundierten Theoriebildung unerlässlich. In jedem Fall müssen
lexikalische Ressourcen erstellt, gegebenenfalls annotiert, im Anschluss
daran z.B. mittels statistischer Verfahren exploriert und u.U. auch gewartet
werden.
Leistungsnachweise werden für Referate und Seminararbeiten
vergeben. Das Seminar wird ausgewählte Themenbereiche behandeln (welche
konkret, ist auch vom Interesse der Teilnehmenden abhängig).
Schwerpunktmässig
theoretisch ausgerichtete Arbeiten widmen sich in Form einer
Einzelstudie oder Übersicht linguistischen oder anwendungsorientierten
Themen.
Schwerpunktmässig
praktisch ausgerichtete Arbeiten umfassen die Implementierung bestimmter Ansätze,
Erstellung von Ressourcen (auch Corpusarbeit, Annotation) mit (halb-)automatischen
oder manuellen Mitteln, oder Evaluation.
Für die praktischen Arbeiten beschränken wir uns
auf die Objektsprachen Englisch und Deutsch.
Dozenten
Prof. Dr. Michael Hess
Für Fragen
etc. bitte E-Mail
verwenden (und nur in Notfällen
Telefon)
Sprechstunde:
Donnerstag 14.00-15.00 (bitte bei Corinne Maurer, Telefon
635 43 31, anmelden)
lic.
phil. Simon Clematide
Sprechstunden für Themen
1-5: Bitte im Kalender
einen Termin in einem Slot suchen, welcher mit "Freie Sprechstunde" bezeichnet
ist, und dann eine Mail an mich schicken mit max. 3 Terminvorschlägen.
Bitte das Subject [CL-Besprechung] setzen, damit mein Mail-Filter gnädig
ist:-)
E-Mail:
Dr. Manfred Klenner
Sprechstunden
für Themen 6 -7: nach Absprache
E-Mail:
Zeit und Ort der Veranstaltung
Ort: KO2-F174
Zeit: Dienstag, 10.15-12.00
Beginn:
29. März 2005
Leistungsnachweis und Anforderungen
Zugangsberechtigung:
Bestandenes Akzess-Examen in Computerlinguistik.
Um einen
Seminarschein zu erwerben, wird verlangt:
- Anwesenheit
während 80% der Sitzungen
- für grossen
Schein: eine
schriftliche Arbeit (im Umfang von 15 bis 20 Seiten) und eine mündliche
Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten)
- für kleinen
Schein: eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion
ca. 45 Minuten)
- für kleinen
und grossen Schein: eine kurze mündliche Beurteilung
der Arbeit und Präsentation eines Mitstudenten.
Zur mündlichen
Präsentation gehört ein Handout (1 bis 2 Seiten), das die
wichtigsten Begriffe, Thesen, Literaturhinweise enthält. Siehe auch das kurze Kriterienraster
zu Seminararbeiten.
9 Tage vor der
Präsentation ist der Seminarleitung und dem studentischen Mitbeurteiler
je eine
Vortragsdisposition und (für einen grossen Schein)
eine Vorversion der Seminararbeit abzugeben.
Seminararbeiten müssen zwingend bis zum Beginn des Wintersemsesters 2005/06 abgegeben werden. Verspätete Arbeiten können nicht berücksichtigt werden. Richtlinien zur Gestaltung der Seminararbeit als PDF und Word-Dokument.
Themen
1. Überblick und Einstieg
- Thema
1a: (Computergestützte) Lexikographie und Terminologiearbeit:
Ein Überblick [Übersichtsreferat zum Seminareinstieg]
- Korpustechnologie
für lexikalische Ressourcen [Praktische Arbeit]
- Unterschiedliche
CL-Anwendungen (MT, IR usw.) und ihre lexikalischen Anforderungen [Übersichtsreferat]
- Z.B. der Semantikbrowser
(Demo), z.B. TranslatePro
(Übersetzungsprogramm mit erweiterbarem Lexikon)
|
2. Standards
- Thema 2a:
Standards, Formate, Schnittstellen und Distributionsformen
für lexikalische Ressourcen [Überblicksreferat]
- Distributionsformen:
nebst traditionelleren Formen Wiktionary, Dictionary
Server Protocol (DICT), Worldwide Lexicon
- Thema
2b: Das Standardformat OLIF [Einzelstudie
zu den Kodierungen in OLIF für Englisch und Deutsch]
- Lexikonimport,
-export und -fusion [Theoretische Arbeit]
- Arbeiten von
Ludewig
(mit Literaturhinweisen)
- siehe auch
unten "Lexikalische Semantik:Ansätze zur Erweiterung und Adaption semantischer
Netze an CL-Anwendungen"
|
3. Lexikalische
und morphologische Ressourcen (erstellen)
- Thema
3a: Recherche und Überblick zu relevanten lexikalischen und
terminologischen Ressourcen und Tools (kommerziell/akademisch/frei verfügbar) für Englisch und Deutsch [Überblicksreferat, Zusammenstellung als Online-Dokument ]
- Selber
lexikalische Ressourcen erstellen
- Thema
3b: Aquirierung und Bereinigung von Corpora aus dem biomedizinischen Bereich (Englisch) und juristischen Bereich (Deutsch) [Praktische Arbeit ]
- Thema
3c: Erstellung eines morphosyntaktischen Vollformenlexikons für
Deutsch in einem relationalen Datenbanksystem [Praktische Arbeit (1-2 Personen)]
- Thema
3d: Erstellung einer "Finite-State"-Morphologie für Deutsch mit OLIF-basierten Kategorien [Praktische Arbeit ]
- Thema
3e: Lexikonerstellung in XLE für LFG [Theoretische
Arbeit, Praktische Arbeit]
- Anforderungen
ans Lexikon für "Deep Parsing"
|
4. Mehrwortlexeme
und phrasale Ausdrücke in lexikalischen Ressourcen
- Thema
4aa: Mehrwortlexeme und phrasale Ausdrücke [Praktische Arbeit]
- Thema
4a: Der PhraseManager-Ansatz [Theoretische Arbeit]
- Pedrazzini,
Sandro. - Phrase manager : a system for phrasal and idiomatic dictionaries
/ Sandro Pedrazzini. - Hildesheim <etc.> : Olms, 1994 [im Handapparat]
- Tschichold, Cornelia. - Multi-word
units in natural language processing / Cornelia Tschichold. - Hildesheim
: Olms, 2000 [im Handapparat]
- Thema 4b:
Automatische Terminologie-Extraktion und Erkennung von terminologischen
Varianten [Theoretische Arbeit]
|
5. Lexikalische
Assoziationen
[Theoretische Arbeit oder praktische Arbeiten an einem der
folgenden Themen]
- Thema 5a:
Erstellen lexikalischer Ressourcen für die PP-Anbindungs-Desambiguierung
- Relationale
Nomen
- Kollokationen
im biomedizinischen Bereich
|
6. Von Kasusrahmen
zu Prädikat-Argument-Strukturen
- Thema 6a:
Lexikalische Ressourcen (FrameNet, VerbNet etc.) und Annotationsprojekte
(Proposition
Bank für Englisch, SALSA für
Deutsch)
- Thema
6b: Evaluation und Anreicherung syntaktischer lexikalischer Ressourcen
gegenüber und aus Baumbanken (besonders Verben) [Praktische Arbeiten]
- Anreicherung
von Kasusrahmen aus COMLEX mit lexikalischen Ressourcen aus dem Link-Grammar-System [Praktische
Arbeit]
- Thema
6d: Annotation von Kasusrahmen für Minimale Logische Formen
im NEGRA-Korpus [Praktische Arbeit]
|
7. Lexikalische
Semantik (in lexikalischen Ressourcen)
- Thema 7a: Überblick
- Literaturhinweis:
- Cruse,
Alan. - Meaning in language : an introduction to semantics and pragmatics
/ Alan Cruse. - Oxford : Oxford University Press, 2004 [im Handapparat]
- Thema 7b:
Relationale lexikalische Ansätze
- Ressourcen im
Stil von WordNet
und Ansätze zur Erweiterung und Adaption semantischer
Netze an CL-Anwendungen
- Thema 7c:
Dekompositionelle lexikalische Ansätze zu Argumentstrukturen (Übersicht
von Krifka)
- Ressourcen im
Stil von TELEX
: [Einzelstudie zu Besitzwechselverben]
- Thema 7d:
Produktive Wortbildungsmuster und ihre dekompositionelle Semantik
- Motsch, Wolfgang. - Deutsche Wortbildung
in Grundzügen / Wolfgang Motsch. - Berlin : de Gruyter, 2004
[im Handapparat]
- Konzeptuelle
Ansätze und Lexikalisierung
- Word sense desambiguation
(WSD) sprich "Verfahren zur Lesartenidentifikation" [Theoretische Arbeit,
ev. praktische Arbeit]
|
Hinweis 1: Die
angegebenen Web- und Literaturreferenzen sind als Ausgangspunkt Ihrer eigenen
Recherchen zu verstehen und nicht als Ersatz dafür!
Hinweis 2: Gewisse
Themen erfordern insbesondere für die Präsentation, aber auch
für die schriftliche Arbeit eine von Ihnen gewählte sinnige Einschränkung
auf bestimmte Aspekte bzw. Fragestellungen.
Technische
Aspekte
Standardmässig zur Verfügung
stehen Hellraumprojektor und Beamer. Wer für sein
Referat zusätzliche technische Einrichtungen braucht, soll zeitig
dafür sorgen, dass sie zur Verfügung stehen.
Zeitplan
Der
Zeitplan ist tentativ. Bitte konsultieren Sie den Plan regelmässig.
Datum
|
Thema/Referatstitel
|
Referierende (Themakürzel)
[Beurteilende] |
Materialien
|
29.3.
|
Organisatorisches |
Seminarleitung |
Simons Tipp der Woche: Recherchiert mit scholar.google.com
|
"(Computergestützte) Lexikographie und Terminologiearbeit" |
Bettina
Inauen (1a)+SA
[Nataly Hüeblin] |
|
5.4.
|
"Standards, Formate, Schnittstellen und Distributionsformen" |
Karin Meyer (2a)+
[Bettina Inauen] |
|
"Open Lexikon Interchange Format (OLIF)"
|
Raphael Kost (2b)+
[Karin Meyer] |
|
12.4.
|
"Lexikalische und terminologische Ressourcen"
|
Rebekka Häberli(3a)+SA
[Raphael Kost] |
|
"Bereinigung und Akquirierung von Textkorpora"
|
Corinne Parigi (3b)+SA
Yvonne Müller (3b)+SA
[Rebekka Häberli] |
|
19.4.
|
"Erstellung eines morphosyntaktischen Vollformenlexikon in einem relationalen Datenbanksystem"
|
René Bauer (3c)+
[Corinne Parigi ,Yvonne Müller] |
|
26.4.
|
"Deutsche Morphologie mit Finite-State-Werkzeugen"
|
Thomas Kappeler (3d)+SA
Luzius Thöny (3d)+SA
[René Bauer] |
Operatoren-Uebersicht.rtf |
3.5.
|
"Lexikonerstellung in XLE für LFG"
|
Thomas
Meyer (3e)+SA
Martin Gabathuler (3e)+SA
[Thomas Kappeler,Luzius Thöny] |
|
10.5.
|
"Mehrworttermextraktion mit FASTR (et al.)"
Mehrworttermextraktion ist ein Gebiet der Computerlinguistik, welches viele Schwierigkeiten beinhaltet. Das Hauptproblem ist mit dem Mehrwortterm Term Fluidity angesprochen. Es soll der FASTR-Formalismus vorgestellt werden, welcher nicht nur Mehrwortterme und deren Variationen zu erkennen vermag, sondern neu gefundene Variationen ins Lexikon schreibt (Term Acqisition / Lexicon EnrichmenTermen (Candidate Terms) geschieht durch Metaregeln. |
Matthias Hofer (4b)+SA
[Thomas Meyer,Martin Gabathuler] |
Präzisierender Nachtrag zur Lexikalisierung von Konzepten: SHOEBURYNESS(The vague uncomfortable feeling you get when sitting on a seat which is still warm from somebody else's bottom.) |
17.5. |
"Mehrwortlexeme und phrasale Ausdrücke"
|
Valentina Rota
(4a)+SA
[Matthias Hofer] |
|
Kaspar Schluer (4aa)+SA
[Valentina Rota ] |
|
24.5.
|
"Vier verbbezogene lexikalische Ressourcen eine Übersicht"
|
Patricia Scheurer (6a)+SA
[Kaspar Schluer] |
|
Valenzlexika und Treebanks für Deutsch und Englisch
Teil I: Einführung in die Ressourcen"
Im ersten Block unserer zweiteiligen Präsentation werden im Anschluss ans Referat von Patricia einige unserer lexikalischen Ressourcen, genauer Valenzlexika und Baumbanken, für Deutsch (Tiger) und Englisch (PennTreebank, COMLEX) vorgestellt. (Die Information zu Griesbach folgt im Teil II). Neben Hintergrundinformation zur Entstehung und Zusammensetzung der Ressourcen soll auch auf den Aufbau und die Codierung der Einträge eingegangen werden. Der Fokus wird dabei auf der Repräsentation von Verben und ihren Kasusrahmen liegen, da das Verständnis davon Grundlage für den zweiten Teil unseres Vortrags - und unsere individuellen Programmierarbeiten - sein wird.
|
Thomas
Nell (6d)+SA
[Patricia Scheurer] |
|
31.5.
|
Kathrin Lüthi
(6b)+SA
[Thomas Nell] |
|
Daniela Landert (6b)+SA
[Kathrin Lüthi] |
|
7.6.
|
Lexikalische Semantik Eine Einführung
|
Marisa Brunner (7a)+
[Daniela Landert] |
|
Was bringen WordNet & co. der CL?
|
Fabienne Saulière+ (7b)+SA
[Marisa Brunner] |
|
14.6.
|
"Produktive Wortbildungsmuster und ihre dekompositionelle Semantik"
|
Maja
Ravaioli (7d)+
[Fabienne Saulière] |
|
21.6.
|
"Lexikalische Dekomposition"
In diesem Referat soll die Idee der lexikalischen Dekomposition anhand einiger Ansätze vorgestellt werden. Dabei werde ich mich insbesondere auf die dekompositionellen Theorien von Jackendoff und von Kunze stützen. Mit einigen ausgewählten Beispielen möchte ich zeigen, für welche semantischen Repräsentatioenen die Dekomposition unerlässlich ist und welche Vorteile sie bringt. Ein solcher Vorteil soll anhand des Besitzwechselverbs schenken (aus dem Projekt TELEX) detailliert besprochen werden. Auf der Grundlage der dekompositionellen Theorie Kunze´s entsteht die Möglichkeit der Anwendung der Semantischen Emphase, wodurch mit einer Verb-Grundform verschiedene Bedeutungsnuancen des Verbs schenken eingefangen werden können. Zum Schluss werde ich kurz auf die Nachteile der Dekomposition eingehen, wie z.B. die Problematik der Auswahl der Primitive.
|
Nataly
Hüeblin (7c)+SA
[Maja Ravaioli] |
|
28.6.
|
Schlusssitzung
"Lexikalische Verarbeitung für psychosemantische Annotationen im Jakob-Projekt"
Finale: Was haben wir wo wann von wem gelernt in diesem Seminar?
|
Alle
Programmierprojektsreferat von Evelyn Thar
|
|
Legende zur Spalte Referierende:
- +: bestätigt
- SA: mit Seminararbeit
-
Weitere Angaben
Weitere Angaben
zum Studium der Computerlinguistik in Zürich
finden Sie hier.
Author:
Michael Hess
Date of last
modification:
Source: http://www.ifi.unizh.ch/CL/hess/classes/seminare/lexressourcen//index.html
|
|