University of Zurich Department of Computer Science CL group


Universität Zürich

Institut für Computerlinguistik


Seminar in Computerlinguistik

Korpuslinguistik für und mit Computerlinguistik

Gerold Schneider

Sommersemester 2003


ACHTUNG: Geänderte Seminarzeit:
Montag, 14.15 - 16.00

NEWS Spezifikation der Vortragsdisposition, mit Beispiel

Zum Zeitplan geht es hier.

Beni Ruef und Gerold Scheider boten einen Perl-Kurs an: Hier ist das Übungsblatt zum Perl-Kurs, in Word.


Übersicht

Neben oder als Erweiterung zu regelbasierten, der Tradition des Rationalismus folgenden Zugängen zur Verarbeitung natürlicher Sprache gewinnen sprachdatenbasierte Zugänge, auch korpuslinguistische genannt, zunehmend an Bedeutung. Sie erlauben eine Definition der Sprachwissenschaft auf empirischer Basis und haben Computerlinguistik wie Sprachwissenschaft revolutioniert. Wir behandeln einige Themen, in denen Computerlinguistik und Korpuslinguistik gegenseitig voneinander profitieren, beispielsweise indem Werkzeuge der Korpuslinguistik zu einem differenzierteren computerlinguistischen Sprachmodell beitragen, oder Werkzeuge der Computerlinguistik eine teilautomatische Annotierung von Textsammlungen erlauben. Nach einer praxisorientierten Einführung in einige der Werkzeuge wie die Programmiersprache Perl, die Korpusabfragesprache tgrep, vektororientierte Daten etc. wenden wir uns individuellen Themen zu, beispielsweise:

 Syntax und Ambiguität
 Wortartenzuweisung
 Lexikalisches Wissen
 Terminologieerkennung
 Semantische Netzwerke
 Wortsinndisambiguierung
 Textklassifizierung und Data Mining
 Literaturforschung und Stylometrie

Neben theoretischen Darlegungen sind wo immer möglich auch Teilimplementierungen Seminarziel. Der Besuch der Vorlesung "Korpuslinguistik für und mit Computerlinguistik" von Martin Volk im WS 2002/03 wird empfohlen, aber nicht vorausgesetzt.

Allgemeine Literatur:
 Abeillé, Anne, ed., 2003. Building and using Parsed Corpora. Dordrecht: Kluwer.
 Dale, Robert; Hermann Moisl and Harold Somers, eds., 2000. Handbook of Natural Language Processing, Part II (Empirical Approaches to NLP). Dekker, New York.
 Oakes, Michael P., 1998. Statistics for Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh University Press.
 Volk, Martin, 2001. The automatic resolution of prepositional phrase attachment ambiguities in German. Habilitationsschrift. University of Zurich.


Voraussetzungen

 Bestandenes Akzess-Examen in Computerlinguistik

 Kriterienraster: Um einen Seminarschein zu erwerben, wird wie üblich Anwesenheit während 80% der Sitzungen sowie eine schriftliche Arbeit (im Umfang von 15 bis 20 Seiten) und eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) verlangt (für kleinen Schein: nur mündliche Präsentation). Zur mündlichen Präsentation gehört ein Handout (1 bis 2 Seiten), das die wichtigsten Begriffe, Thesen, Literaturhinweise enthält.

 9 Tage vor der Präsenation ist eine Vortragsdisposition und eine Vorversion der Seminararbeit abzugeben (ausser für kleinen Schein).

 Seminararbeiten müssen zwingend bis zum Beginn des Wintersemsesters 2003/04 abgegeben werden. Verspätete Arbeiten können nicht berücksichtigt werden.

Themen

Themenvorschläge seitens der Studenten als Ergänzung zur folgenden Themenliste sind willkommen. Neben dem Aufarbeiten des theoretischen Hintergrundes der Themen sind für Seminararbeiten praktische Programmierarbeiten erwünscht (aber nicht vorausgesetzt), bei denen ein Teilproblem ausprogrammiert wird. Die Themen können auch in Zweiergruppen angegangen werden, dabei ist ein Gruppenmitglied für die Implementierung, das andere für die Literaturrecherche verantwortlich, die Präsentation erfolgt dann gemeinsam. Die Präsentation stellt 2-3 wissenschaftliche Artikel vor, im Falle einer Programmierarbeit werden die schon implementierten Schritte vorgestellt und ein Ausblick auf die folgenden Schritte gegeben.

 Tagging [Brill 00, Oakes 98(Chapter 2)]

 Chunking

 Super-Chunking: Möglichkeiten und Grenzen der Finite-State Technologien

 Probabilistisches Parsing [Carroll 00]

 PP-Anbindung [Volk 01]

 Argumentstruktur

 Kontextbasierte Wortassoziationen

 Terminologie und Kollokationen

 Stylometrie

Themenspezifische Literatur

[Abney 96]
Steven Abney, 1996. "Partial parsing via finite-state cascaedes". In Proceedings of the ESSLLI '96 robust parsing workshop. Prague, Czech Republic.
[Brants 99]
Thorsten Brants, 1999. Tagging and Parsing with Cascaded Markov Models - Automation of Corpus Annotation. Saarbrücken Dissertations in Computational Linguistics and Language Technology, Volume 6. German Research Center for Artificial Intelligence and Saarland University, Saarbrücken, Germany.
[Brill 92]
Eric Brill, 1992: "A simple rule-based part-of-speech tagger". In: Proceedings of ANLP. Trento/Italy. ACL. 152-155.
[Brill 94]
Eric Brill, 1994: "A report of recent progress in transformation-based error-driven learning". In: Proceedings of AAAI.
[Brill 00]
Eric Brill, 2000. "Part-Of-Speech Tagging". In [Dale et al. 00].
[Carroll 00]
John A. Carroll, 2000. "Statistical Parsing". In [Dale et al. 00].
[Collins and Brooks 95]
Michael Collins and James Brooks, 1995. "Prepositional phrase attachment through a backed-off model". IN Proceedings of the Third Workshop on Very Large Corpora, 27-38.
[Dagan 00]
Ido Dagan, 2000. "Contextual Word Similarity". In [Dale et al. 00].
[Dale et al. 00]
Robert Dale, Hermann Moisl and Harold Somers, 2000. Handbook of Natural Language Processing. Dekker, New York.
[Deerwester 90]
Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas and Richard A. Harshman, 1990. "Indexing by Latent Semantic Analysis". In Journal of the American Society of Information Science, Vol. 41:6, 391-407.
[Hindle 83]
D. Hindle, 1983. Deterministic parsing of syntactic non-fluencies. In Proceedings of the 21st annual meeting of the association for computational linguistics.
[Hindle & Rooth 93]
David Hindle and Mats Rooth, 1993. "Structural ambiguity and lexical relations". Computational Linguistics, Vol. 19:1, 103-120.
[Lebart & Rajman 00]
Ludovic Lebart and Martin Rajman, 2000. "Computing Similarity". In [Dale et al. 00]
[Merlo et al. 97]
Paola Merlo, Matthew Crocker and Catherine Berthouzoz, 1997. "Attaching Multiple Prepositional Phrases: Generalized Backed-Off Estimation". In Proceedings of the Second Conference on Empirical Methods in Natural Language Processing, Providence, RI.
[Merlo & Leybold 01]
Paola Merlo and Matthias Leybold, 2001. "Automatic Distinction of Arguments and Modifiers: the Case of Prepositional Phrases". Proceedings of Workshop on Computational Language Learning (Connl 2001), Toulouse, France.
[Merlo & Stevenson 01]
Paola Merlo and Susan Stevenson, 2001. "Automatic verb classification based on statistical distributions of argument structure". Computational Linguistics, 2001. [Merlo 03] Paola Merlo, 2003. Accepted for EACL 03.
[Ramshaw & Marcus 96]
L.A. Ramshaw and M.P. Marcus, 1996. "Exploring the nature of transformation-based learning". In J. Klavans and P. Resnik, eds. The balancing act. Combining symbolic and statistical approaches to language. MIT Press, Cambridge, MA.
[Naumann & Langer 94]
S. Naumann und H. Langer, 1994. Parsing. Teubner, Stuttgart.
[Oakes 98]
Michael P. Oakes, 1998. Statistics for Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh University Press.
[Plaehn 99]
Oliver Plaehn, 1999. Probabilistic Parsing with Discontinuous Phrase Structure Grammar. Diploma Thesis. Department of Computational Linguistics, University of the Saarland, Saarbrücken.
[Rapp 96]
Reinhard Rapp, 1996. Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz. Hildesheim; Zürich; New York: Olms.
[Ratnaparkhi et al. 94]
Adwait Ratnaparkhi, Jeff Reynar and Salim Roukos, 1994. "A Maximum Entropy Model for Prepositional Phrase Attachment". In Proceedings of the ARPA Workshop on Human Language Technology, Morgan Kaufmann.
[Ratnaparkhi 96]
Adwait Ratnaparkhi, 1996. "A Maximum Entropy Part-Of-Speech Tagger". In Proceedings of the Empirical Methods in Natural Language Processing Conference, May 17-18, 1996. University of Pennsylvania.
[Ratnaparkhi 98]
Adwait Ratnaparkhi, 1998. "Statistical Models for Unsupervised Prepositional Phrase Attachment". In Proceedings of the 36th ACL and 17th COLING, 1079-1085.
[Schulte 00]
Sabine Schulte im Walde, 2000. "Clustering Verbs Semantically According to their Alternation Behaviour". In Proceedings of the 18th International Conference on Computational Linguistics (COLING-00), Saarbrücken.
[Schutze 98]
Hinrich Schutze, 1998. "Automatic Word Sense Discrimination". Computational Linguistics,Vol. 24:1,97-124.
[Skut 99]
Wojciech Skut, 1999. Partial Parsing for Corpus Annotation and Text Processing. Saarbrücken Dissertations in Computational Linguistics and Language Technology, Volume 6. German Research Center for Artificial Intelligence and Saarland University, Saarbrücken, Germany.
[Volk 01]
Volk, Martin, 2001. The automatic resolution of prepositional phrase attachment ambiguities in German. Habilitationsschrift. University of Zurich.
[Yarowsky 95]
David Yarowsky, 1995. "Unsupervised word sense disambiguation rivaling supervised methods". In Proceedings of 33rd Anuual Meeting of the Association for Computational Linguistics, Cambridge, MA, 189-196.
[Yarowsky 00]
David Yarowsky, 2000. "Word Sense Disambiguation" In [Dale et al. 00].

Zeitplan

Datum Thema Referenten Titel
31.03.03 UNIX und Perl Gerold Schneider Folien
07.04.03 Corpora, tgrep Gerold Schneider
Simon Clematide
Gerolds Folien
Simons Folien
14.04.03 Statistik, Vektoren Gerold Schneider
Igor Rezan
Statistik
Vektoren, Singulärwertzerlegung: Vorversion
05.05.03 Tagging Beni Ruef
Therese Rutishauser
Brill-Tagger mit Altenglisch
Nebensätze in Schwedisch: Seminararbeit
12.05.03 Chunking D. Assambajena & S. Roth Chunking als Partielles Parsing
19.05.03 Parsing Carole Egger & Valentina Rota
Beat Metzler
Shift-Reduce Parser
Philosophische Betrachtungen zur Argumentstruktur
26.05.03 Parsing Andreas Haupt
Johann Fichtner
Eveline Zeller
Earley Parser
Diskontinuierliche Konstituenz
PCFGs
02.06.03 PP-Anbindung Daniel Cahn
Anne Göhring & Nathan Labhart
Maximum Likelihood
Klassiker
16.06.03 Argumentstruktur Rosalba di Santo
Yvonne Herzig Gainsford
Christiane Mzamo
Unterscheidung Argument/Adjunkt
Unsupervisierte Verbklassifikation
Autom. Lernen der Argumentstruktur
23.06.03 Wortassoziationen Magnus Carlson
Jan Flueckinger
Kaspar Schlüer
Ähnlichkeiten und Assoziationen
Semantic Web
Wortassoziationen
30.06.03 Terminologie, Stylometrie, Konnektionismus Filippo Svalduz
Cornelia Steinmann
Christoph Buchs
Terminologie/Kollokationen
Stylometrie
Konnektionismus und Neuronale Netze

Dozent

 Gerold Schneider

Für Fragen etc. bitte E-Mail gschneid AT ifi.unizh.ch verwenden

Sprechstunde: nach Vereinbarung

Assistent

 Simon Clematide

Weitere Angaben

Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .


University of Zurich Department of Computer Science  CL group


http://www.ifi.unizh.ch/cl/gschneid/KorpusSeminar/index.html      16-Juni-2003      Gerold Schneider