Universität Zürich  
 Institut für Computerlinguistik




                                                                                                                 
Alle Vorlesungsunterlagen Home CL


Inhalt und Format

Dozenten

Zeit und Ort

Anforderungen

Leistungsnachweis

Themen
Technische Aspekte

Zeitplan

Weitere Angaben










































































































































































CLsmallLog

3306: Seminar in Computerlinguistik

Sommer-Semester 2005
Lexikalische Ressourcen in der Computerlinguistik

Prof. Dr. Michael Hess
lic. phil. Simon Clematide
Dr. Manfred Klenner



Inhalt

  Lexikalische Ressourcen sind zentral für die Entwicklung und die Evaluierung von computerlinguistischer Software. Sie sind aber bereits zu einer empirisch fundierten Theoriebildung unerlässlich. In jedem Fall müssen lexikalische Ressourcen erstellt, gegebenenfalls annotiert, im Anschluss daran z.B. mittels statistischer Verfahren exploriert und u.U. auch gewartet werden.

  Leistungsnachweise werden für Referate und Seminararbeiten vergeben. Das Seminar wird ausgewählte Themenbereiche behandeln (welche konkret, ist auch vom Interesse der Teilnehmenden abhängig).

 Schwerpunktmässig theoretisch ausgerichtete Arbeiten widmen sich in Form einer Einzelstudie oder Übersicht linguistischen oder anwendungsorientierten Themen.

 Schwerpunktmässig praktisch ausgerichtete Arbeiten umfassen die Implementierung bestimmter Ansätze, Erstellung von Ressourcen (auch Corpusarbeit, Annotation) mit (halb-)automatischen oder manuellen Mitteln, oder Evaluation.
Für die praktischen Arbeiten beschränken wir uns auf die Objektsprachen Englisch und Deutsch.


Dozenten

Prof. Dr. Michael Hess

Für  Fragen etc. bitte E-Mail  verwenden (und nur in Notfällen Telefon)

Sprechstunde: Donnerstag 14.00-15.00 (bitte bei Corinne Maurer, Telefon 635 43 31, anmelden)


lic. phil. Simon Clematide
Sprechstunden für Themen 1-5: Bitte im Kalender einen Termin in einem Slot suchen, welcher mit "Freie Sprechstunde" bezeichnet ist, und dann eine Mail an mich schicken mit max. 3 Terminvorschlägen. Bitte das Subject [CL-Besprechung] setzen, damit mein Mail-Filter gnädig ist:-)
E-Mail:

Dr. Manfred Klenner
Sprechstunden für Themen 6 -7: nach Absprache
E-Mail:



Zeit und Ort der Veranstaltung

 Ort: KO2-F174

 Zeit: Dienstag, 10.15-12.00

 Beginn:  29. März 2005


Leistungsnachweis und Anforderungen

 Zugangsberechtigung:  Bestandenes Akzess-Examen in Computerlinguistik.

  Um einen Seminarschein zu erwerben, wird verlangt:

  • Anwesenheit während 80% der Sitzungen
  • für grossen Schein: eine schriftliche Arbeit (im Umfang von 15 bis 20 Seiten) und eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) 
  • für kleinen Schein: eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) 
  • für kleinen und grossen Schein: eine kurze mündliche Beurteilung der Arbeit und Präsentation eines Mitstudenten.

 Zur mündlichen Präsentation gehört ein Handout (1 bis 2 Seiten), das die wichtigsten Begriffe, Thesen, Literaturhinweise enthält.  Siehe auch das kurze Kriterienraster zu Seminararbeiten.

 9 Tage vor der Präsentation ist der Seminarleitung und dem studentischen Mitbeurteiler je eine Vortragsdisposition und (für einen grossen Schein) eine Vorversion der Seminararbeit abzugeben.

 Seminararbeiten müssen zwingend bis zum Beginn des Wintersemsesters 2005/06 abgegeben werden. Verspätete Arbeiten können nicht berücksichtigt werden. Richtlinien zur Gestaltung der Seminararbeit als PDF und Word-Dokument.


Themen

1. Überblick und Einstieg
2. Standards
  • Thema 2a: Standards, Formate, Schnittstellen und Distributionsformen für lexikalische Ressourcen [Überblicksreferat]
    • Distributionsformen: nebst traditionelleren Formen Wiktionary, Dictionary Server Protocol (DICT), Worldwide Lexicon
    • Thema 2b: Das Standardformat OLIF [Einzelstudie zu den Kodierungen in OLIF für Englisch und Deutsch]
  • Lexikonimport, -export und -fusion [Theoretische Arbeit]
    • Arbeiten von Ludewig (mit Literaturhinweisen)
    • siehe auch unten "Lexikalische Semantik:Ansätze zur Erweiterung und Adaption semantischer Netze an CL-Anwendungen"


3. Lexikalische und morphologische Ressourcen (erstellen)
  • Thema 3a: Recherche und Überblick zu relevanten lexikalischen und terminologischen Ressourcen und Tools (kommerziell/akademisch/frei verfügbar) für Englisch und Deutsch [Überblicksreferat, Zusammenstellung als Online-Dokument ]
  • Selber lexikalische Ressourcen erstellen
    • Thema 3b: Aquirierung und Bereinigung von Corpora aus dem biomedizinischen Bereich (Englisch) und juristischen Bereich (Deutsch) [Praktische Arbeit ]
    • Thema 3c: Erstellung eines morphosyntaktischen Vollformenlexikons für Deutsch in einem relationalen Datenbanksystem [Praktische Arbeit (1-2 Personen)]
    • Thema 3d: Erstellung einer "Finite-State"-Morphologie für Deutsch mit OLIF-basierten Kategorien [Praktische Arbeit ]
    • Thema 3e: Lexikonerstellung in XLE für LFG [Theoretische Arbeit, Praktische Arbeit]
      • Anforderungen ans Lexikon für "Deep Parsing"


4. Mehrwortlexeme und phrasale Ausdrücke in lexikalischen Ressourcen

  • Thema 4aa: Mehrwortlexeme und phrasale Ausdrücke [Praktische Arbeit]
  • Thema 4a: Der PhraseManager-Ansatz [Theoretische Arbeit]
    • Pedrazzini, Sandro. -  Phrase manager : a system for phrasal and idiomatic dictionaries / Sandro Pedrazzini. -  Hildesheim <etc.> : Olms, 1994 [im Handapparat]
    • Tschichold, Cornelia. -  Multi-word units in natural language processing / Cornelia Tschichold. -  Hildesheim : Olms, 2000 [im Handapparat]

  • Thema 4b: Automatische Terminologie-Extraktion und Erkennung von terminologischen Varianten [Theoretische Arbeit]


5. Lexikalische Assoziationen
[Theoretische Arbeit oder praktische Arbeiten an einem der folgenden Themen]

  • Thema 5a: Erstellen lexikalischer Ressourcen für die PP-Anbindungs-Desambiguierung
  • Relationale Nomen
  • Kollokationen im biomedizinischen Bereich


6. Von Kasusrahmen zu Prädikat-Argument-Strukturen

  • Thema 6a: Lexikalische Ressourcen (FrameNet, VerbNet etc.) und Annotationsprojekte (Proposition Bank für Englisch, SALSA für Deutsch)
  • Thema 6b: Evaluation und Anreicherung syntaktischer lexikalischer Ressourcen gegenüber und aus Baumbanken (besonders Verben) [Praktische Arbeiten]
  • Anreicherung von Kasusrahmen aus COMLEX mit lexikalischen Ressourcen aus dem Link-Grammar-System [Praktische Arbeit]
  • Thema 6d: Annotation von Kasusrahmen für Minimale Logische Formen im NEGRA-Korpus [Praktische Arbeit]


7. Lexikalische Semantik (in lexikalischen Ressourcen)

  • Thema 7a: Überblick
  • Literaturhinweis:
    • Cruse, Alan. -  Meaning in language : an introduction to semantics and pragmatics / Alan Cruse. -  Oxford : Oxford University Press, 2004 [im Handapparat]
  • Thema 7b: Relationale lexikalische Ansätze
    • Ressourcen im Stil von WordNet und Ansätze zur Erweiterung und Adaption semantischer Netze an CL-Anwendungen
  • Thema 7c: Dekompositionelle lexikalische Ansätze zu Argumentstrukturen (Übersicht von Krifka)
    • Ressourcen im Stil von TELEX : [Einzelstudie zu Besitzwechselverben]
  • Thema 7d: Produktive Wortbildungsmuster und ihre dekompositionelle Semantik
    • Motsch, Wolfgang. -  Deutsche Wortbildung in Grundzügen / Wolfgang Motsch. -  Berlin : de Gruyter, 2004 [im Handapparat]
  • Konzeptuelle Ansätze und Lexikalisierung
  • Word sense desambiguation (WSD) sprich "Verfahren zur Lesartenidentifikation" [Theoretische Arbeit, ev. praktische Arbeit]

Hinweis 1: Die angegebenen Web- und Literaturreferenzen sind als Ausgangspunkt Ihrer eigenen Recherchen zu verstehen und nicht als Ersatz dafür!

Hinweis 2: Gewisse Themen erfordern insbesondere für die Präsentation, aber auch für die schriftliche Arbeit eine von Ihnen gewählte sinnige Einschränkung auf bestimmte Aspekte bzw. Fragestellungen.



Technische Aspekte

 Standardmässig zur Verfügung stehen Hellraumprojektor und Beamer. Wer für sein Referat zusätzliche technische Einrichtungen braucht, soll zeitig dafür sorgen, dass sie zur Verfügung stehen.


Zeitplan

 Der Zeitplan ist tentativ. Bitte konsultieren Sie den Plan regelmässig.

Datum
Thema/Referatstitel
Referierende (Themakürzel)
[Beurteilende]
Materialien
29.3.

Organisatorisches Seminarleitung Simons Tipp der Woche: Recherchiert mit scholar.google.com
"(Computergestützte) Lexikographie und Terminologiearbeit" Bettina Inauen (1a)+SA
[Nataly Hüeblin]

5.4.
"Standards, Formate, Schnittstellen und Distributionsformen" Karin Meyer (2a)+
[Bettina Inauen]

"Open Lexikon Interchange Format (OLIF)"
Raphael Kost (2b)+
[Karin Meyer]

12.4.
"Lexikalische und terminologische Ressourcen"
Rebekka Häberli(3a)+SA
[Raphael Kost]

"Bereinigung und Akquirierung von Textkorpora"
Corinne Parigi (3b)+SA
Yvonne Müller (3b)+SA
[Rebekka Häberli]

19.4.
"Erstellung eines morphosyntaktischen Vollformenlexikon in einem relationalen Datenbanksystem"
René Bauer (3c)+
[Corinne Parigi ,Yvonne Müller]

26.4.
"Deutsche Morphologie mit Finite-State-Werkzeugen"
Thomas Kappeler (3d)+SA
Luzius Thöny (3d)+SA
[René Bauer]
Operatoren-Uebersicht.rtf
3.5.
"Lexikonerstellung in XLE für LFG"
Thomas Meyer (3e)+SA
Martin Gabathuler (3e)+SA
[Thomas Kappeler,Luzius Thöny]

10.5.

"Mehrworttermextraktion mit FASTR (et al.)"
Mehrworttermextraktion ist ein Gebiet der Computerlinguistik, welches viele Schwierigkeiten beinhaltet. Das Hauptproblem ist mit dem Mehrwortterm Term Fluidity angesprochen. Es soll der FASTR-Formalismus vorgestellt werden, welcher nicht nur Mehrwortterme und deren Variationen zu erkennen vermag, sondern neu gefundene Variationen ins Lexikon schreibt (Term Acqisition / Lexicon EnrichmenTermen (Candidate Terms) geschieht durch Metaregeln.
Matthias Hofer (4b)+SA
[Thomas Meyer,Martin Gabathuler]
Präzisierender Nachtrag zur Lexikalisierung von Konzepten: SHOEBURYNESS(The vague uncomfortable feeling you get when sitting on a seat which is still warm from somebody else's bottom.)
17.5. "Mehrwortlexeme und phrasale Ausdrücke"
Valentina Rota (4a)+SA
[Matthias Hofer]

Kaspar Schluer (4aa)+SA
[Valentina Rota ]

24.5.

"Vier verbbezogene lexikalische Ressourcen – eine Übersicht"
Patricia Scheurer (6a)+SA
[Kaspar Schluer]

Valenzlexika und Treebanks für Deutsch und Englisch
Teil I: Einführung in die Ressourcen"

Im ersten Block unserer zweiteiligen Präsentation werden im Anschluss ans Referat von Patricia einige unserer lexikalischen Ressourcen, genauer Valenzlexika und Baumbanken, für Deutsch (Tiger) und Englisch (PennTreebank, COMLEX) vorgestellt. (Die Information zu Griesbach folgt im Teil II). Neben Hintergrundinformation zur Entstehung und Zusammensetzung der Ressourcen soll auch auf den Aufbau und die Codierung der Einträge eingegangen werden. Der Fokus wird dabei auf der Repräsentation von Verben und ihren Kasusrahmen liegen, da das Verständnis davon Grundlage für den zweiten Teil unseres Vortrags - und unsere individuellen Programmierarbeiten - sein wird.

Thomas Nell (6d)+SA
[Patricia Scheurer]

31.5.
Kathrin Lüthi (6b)+SA
[Thomas Nell]

Daniela Landert (6b)+SA
[Kathrin Lüthi]

7.6.
Lexikalische Semantik – Eine Einführung
Marisa Brunner (7a)+
[Daniela Landert]

Was bringen WordNet & co. der CL?
Fabienne Saulière+ (7b)+SA
[Marisa Brunner]

14.6.
"Produktive Wortbildungsmuster und ihre dekompositionelle Semantik"
Maja Ravaioli (7d)+
[Fabienne Saulière]

21.6.
"Lexikalische Dekomposition"

In diesem Referat soll die Idee der lexikalischen Dekomposition anhand einiger Ansätze vorgestellt werden. Dabei werde ich mich insbesondere auf die dekompositionellen Theorien von Jackendoff und von Kunze stützen. Mit einigen ausgewählten Beispielen möchte ich zeigen, für welche semantischen Repräsentatioenen die Dekomposition unerlässlich ist und welche Vorteile sie bringt. Ein solcher Vorteil soll anhand des Besitzwechselverbs schenken (aus dem Projekt TELEX) detailliert besprochen werden. Auf der Grundlage der dekompositionellen Theorie Kunze´s entsteht die Möglichkeit der Anwendung der Semantischen Emphase, wodurch mit einer Verb-„Grundform“ verschiedene Bedeutungsnuancen des Verbs schenken eingefangen werden können. Zum Schluss werde ich kurz auf die Nachteile der Dekomposition eingehen, wie z.B. die Problematik der Auswahl der Primitive.

Nataly Hüeblin (7c)+SA
[Maja Ravaioli]

28.6.
Schlusssitzung

"Lexikalische Verarbeitung für psychosemantische Annotationen im Jakob-Projekt"

Finale: Was haben wir wo wann von wem gelernt in diesem Seminar?

Alle

Programmierprojektsreferat von Evelyn Thar


Legende zur Spalte Referierende:

  • +:  bestätigt
  • SA:  mit Seminararbeit

 

Weitere Angaben

Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier.


Author: Michael Hess
Date of last modification:
Source: http://www.ifi.unizh.ch/CL/hess/classes/seminare/lexressourcen//index.html