Universität Zürich
Institut für Computerlinguistik
Seminar in Computerlinguistik
Korpuslinguistik für und mit Computerlinguistik
Gerold Schneider
Sommersemester 2003
Geänderte Seminarzeit:
Montag,
Zum Zeitplan geht es hier.
Beni Ruef und Gerold Scheider boten einen Perl-Kurs an: Hier ist das Übungsblatt zum Perl-Kurs, in Word.
Übersicht
Neben oder als Erweiterung zu regelbasierten, der Tradition des
Rationalismus folgenden Zugängen zur Verarbeitung natürlicher Sprache
gewinnen sprachdatenbasierte Zugänge, auch korpuslinguistische genannt,
zunehmend an Bedeutung. Sie erlauben eine Definition der
Sprachwissenschaft auf empirischer Basis und haben Computerlinguistik
wie Sprachwissenschaft revolutioniert. Wir behandeln einige Themen, in
denen Computerlinguistik und Korpuslinguistik gegenseitig voneinander
profitieren, beispielsweise indem Werkzeuge der Korpuslinguistik zu
einem differenzierteren computerlinguistischen Sprachmodell beitragen,
oder Werkzeuge der Computerlinguistik eine teilautomatische Annotierung
von Textsammlungen erlauben. Nach einer praxisorientierten Einführung in
einige der Werkzeuge wie die Programmiersprache Perl, die
Korpusabfragesprache tgrep, vektororientierte Daten etc. wenden wir uns
individuellen Themen zu, beispielsweise:
Syntax und Ambiguität
Wortartenzuweisung
Lexikalisches Wissen
Terminologieerkennung
Semantische Netzwerke
Wortsinndisambiguierung
Textklassifizierung und Data Mining
Literaturforschung und Stylometrie
Neben theoretischen Darlegungen sind wo immer möglich auch
Teilimplementierungen Seminarziel. Der Besuch der Vorlesung
"Korpuslinguistik für und mit Computerlinguistik" von Martin Volk im WS
2002/03 wird empfohlen, aber nicht vorausgesetzt.
Allgemeine Literatur:
Abeillé, Anne, ed., 2003.
Building and using Parsed Corpora. Dordrecht: Kluwer.
Dale, Robert; Hermann Moisl and Harold Somers, eds., 2000. Handbook of
Natural Language Processing, Part II (Empirical Approaches to NLP).
Dekker, New York.
Oakes, Michael P., 1998. Statistics for Corpus Linguistics.
Edinburgh Textbooks in Empirical Linguistics. Edinburgh University Press.
Volk, Martin, 2001. The automatic resolution
of prepositional phrase attachment ambiguities in German. Habilitationsschrift. University of Zurich.
Voraussetzungen
Bestandenes Akzess-Examen in Computerlinguistik
Kriterienraster: Um einen Seminarschein zu erwerben, wird wie üblich Anwesenheit während 80% der Sitzungen sowie eine schriftliche Arbeit (im Umfang von 15 bis 20
Seiten) und eine mündliche Präsentation (Dauer: ca. 45 Minuten, plus Diskussion ca. 45 Minuten) verlangt (für kleinen Schein: nur mündliche Präsentation). Zur
mündlichen Präsentation gehört ein Handout (1 bis 2 Seiten), das die wichtigsten Begriffe, Thesen, Literaturhinweise enthält.
9 Tage vor der Präsenation ist
eine Vortragsdisposition und eine Vorversion der Seminararbeit abzugeben (ausser für kleinen Schein).
Seminararbeiten müssen zwingend bis zum Beginn des
Wintersemsesters 2003/04 abgegeben werden. Verspätete Arbeiten können nicht berücksichtigt werden.
Themen
Themenvorschläge seitens der Studenten als Ergänzung zur folgenden Themenliste sind willkommen.
Neben dem Aufarbeiten des theoretischen Hintergrundes der Themen sind für Seminararbeiten praktische Programmierarbeiten erwünscht
(aber nicht vorausgesetzt), bei denen ein Teilproblem ausprogrammiert wird. Die Themen können auch in Zweiergruppen angegangen werden,
dabei ist ein Gruppenmitglied für die Implementierung, das andere für die Literaturrecherche verantwortlich,
die Präsentation erfolgt dann gemeinsam. Die Präsentation stellt 2-3 wissenschaftliche Artikel vor, im Falle einer Programmierarbeit
werden die schon implementierten Schritte vorgestellt und ein Ausblick auf die folgenden Schritte gegeben.
Tagging [Brill 00, Oakes 98(Chapter 2)]
- Brill Tagger [Brill 92, Brill 94, Ramshaw & Marcus 96]
- Hidden-Markov Models [Brants 99]
- Maximum Entropy [Ratnaparkhi 96]
Chunking
- Chunking als Klammerungsproblem [Skut 99(Chapter 2)]
- Chunking als Partielles Parsing [Skut 99(Chapter 4)]
- Erweiterung eines deutschen Chunkers [Merz]
Super-Chunking: Möglichkeiten und Grenzen der Finite-State Technologien
- Fidditch [Hindle 83]
- Finite State Cascades [Abney 96]
- Cascaded Markov Models [Brants 99]
Probabilistisches Parsing [Carroll 00]
- Probabilistischer Shift-Reduce Parser [Naumann & Langer 94]
- Probabilistischer CYK Parser [Naumann & Langer 94, Brants 99]
- Diskontinuierliche Konstituenz [Plaehn 99]
- Korpusannotation, Korpusexploration, Treebanks
PP-Anbindung [Volk 01]
- Der Klassiker [Hindle & Rooth 93]
- Backed-off Maximum Likelihood Estimation [Collins & Brooks 95]
- Maximum Entropy [Ratnaparkhi et al. 94]
- Unsupervisiert [Ratnaparkhi 98]
- Generalized Backed-Off Estimation [Merlo et al. 97, Merlo 03]
Argumentstruktur
- Unterscheidung zwischen Argumenten und Adjunkten [Merlo & Leybold 01]
- Unsupervisierte Verbklassifikation [Merlo & Stevenson 01]
- Unsupervisierte Klassifikation deutscher Verben [Schulte 00]
- Erkennung thematischer Rollen und Argumentstruktur [Gildea & Jurafsky 02, Gildea 02]
Kontextbasierte Wortassoziationen
- Clustering documents and terms, singular value decomposition (SVD) [Oakes 98(Chapter 3), Deerwester 90]
- Wortsinndisambiguierung mit Iterative Bootstrapping [Yarowsky 95, 00]
- Wortsinndisambiguierung mit Word Space [Schutze 98]
- Assoziationen und Ähnlichkeit[Rapp 96, Dagan 00]
- Distributionale Semantik [Lebart & Rajman 00]
Terminologie und Kollokationen
Stylometrie
Themenspezifische Literatur
- [Abney 96]
- Steven Abney, 1996. "Partial parsing via finite-state cascaedes". In Proceedings of the ESSLLI '96 robust parsing workshop. Prague, Czech Republic.
- [Brants 99]
- Thorsten Brants, 1999. Tagging and Parsing with Cascaded Markov Models - Automation of Corpus Annotation. Saarbrücken Dissertations
in Computational Linguistics and Language Technology, Volume 6. German Research Center for Artificial Intelligence and Saarland University,
Saarbrücken, Germany.
- [Brill 92]
- Eric Brill, 1992: "A simple rule-based part-of-speech tagger". In: Proceedings of ANLP. Trento/Italy. ACL. 152-155.
- [Brill 94]
- Eric Brill, 1994: "A report of recent progress in transformation-based error-driven learning". In: Proceedings of AAAI.
- [Brill 00]
- Eric Brill, 2000. "Part-Of-Speech Tagging". In [Dale et al. 00].
- [Carroll 00]
- John A. Carroll, 2000. "Statistical Parsing". In [Dale et al. 00].
- [Collins and Brooks 95]
- Michael Collins and James Brooks, 1995. "Prepositional phrase attachment through a backed-off model". IN Proceedings
of the Third Workshop on Very Large Corpora, 27-38.
- [Dagan 00]
- Ido Dagan, 2000. "Contextual Word Similarity". In [Dale et al. 00].
- [Dale et al. 00]
- Robert Dale, Hermann Moisl and Harold Somers, 2000. Handbook of Natural Language Processing. Dekker, New York.
- [Deerwester 90]
- Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas and Richard A. Harshman, 1990.
"Indexing by Latent Semantic Analysis". In Journal of the American Society of Information Science, Vol. 41:6, 391-407.
- [Hindle 83]
- D. Hindle, 1983. Deterministic parsing of syntactic non-fluencies. In Proceedings of the 21st annual meeting of the
association for computational linguistics.
- [Hindle & Rooth 93]
- David Hindle and Mats Rooth, 1993. "Structural ambiguity and lexical relations". Computational Linguistics,
Vol. 19:1, 103-120.
- [Lebart & Rajman 00]
- Ludovic Lebart and Martin Rajman, 2000. "Computing Similarity". In [Dale et al. 00]
- [Merlo et al. 97]
- Paola Merlo, Matthew Crocker and Catherine Berthouzoz, 1997. "Attaching Multiple Prepositional Phrases: Generalized Backed-Off
Estimation". In Proceedings of the Second Conference on Empirical Methods in Natural Language Processing, Providence, RI.
- [Merlo & Leybold 01]
- Paola Merlo and Matthias Leybold, 2001. "Automatic Distinction of Arguments and Modifiers: the Case of Prepositional
Phrases". Proceedings of Workshop on Computational Language Learning (Connl 2001), Toulouse, France.
- [Merlo & Stevenson 01]
- Paola Merlo and Susan Stevenson, 2001. "Automatic verb classification based on statistical distributions of argument
structure". Computational Linguistics, 2001.
[Merlo 03]
Paola Merlo, 2003. Accepted for EACL 03.
- [Ramshaw & Marcus 96]
- L.A. Ramshaw and M.P. Marcus, 1996. "Exploring the nature of transformation-based learning". In J. Klavans and P. Resnik,
eds. The balancing act. Combining symbolic and statistical approaches to language. MIT Press, Cambridge, MA.
- [Naumann & Langer 94]
- S. Naumann und H. Langer, 1994. Parsing. Teubner, Stuttgart.
- [Oakes 98]
- Michael P. Oakes, 1998. Statistics for Corpus Linguistics.
Edinburgh Textbooks in Empirical Linguistics. Edinburgh University Press.
- [Plaehn 99]
- Oliver Plaehn, 1999. Probabilistic Parsing with Discontinuous Phrase Structure Grammar. Diploma Thesis.
Department of Computational Linguistics, University of the Saarland, Saarbrücken.
- [Rapp 96]
- Reinhard Rapp, 1996. Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz. Hildesheim; Zürich; New
York: Olms.
- [Ratnaparkhi et al. 94]
- Adwait Ratnaparkhi, Jeff Reynar and Salim Roukos, 1994. "A Maximum Entropy Model for Prepositional Phrase Attachment". In
Proceedings of the ARPA Workshop on Human Language Technology, Morgan Kaufmann.
- [Ratnaparkhi 96]
- Adwait Ratnaparkhi, 1996. "A Maximum Entropy Part-Of-Speech Tagger". In Proceedings of the Empirical Methods in
Natural Language Processing Conference, May 17-18, 1996. University of Pennsylvania.
- [Ratnaparkhi 98]
- Adwait Ratnaparkhi, 1998. "Statistical Models for Unsupervised Prepositional Phrase Attachment". In
Proceedings of the 36th ACL and 17th COLING, 1079-1085.
- [Schulte 00]
- Sabine Schulte im Walde, 2000. "Clustering Verbs Semantically According to
their Alternation Behaviour". In Proceedings of the 18th International Conference
on Computational Linguistics (COLING-00), Saarbrücken.
- [Schutze 98]
- Hinrich Schutze, 1998. "Automatic Word Sense Discrimination". Computational Linguistics,Vol. 24:1,97-124.
- [Skut 99]
- Wojciech Skut, 1999. Partial Parsing for Corpus Annotation and Text Processing. Saarbrücken Dissertations
in Computational Linguistics and Language Technology, Volume 6. German Research Center for Artificial Intelligence and Saarland University,
Saarbrücken, Germany.
- [Volk 01]
- Volk, Martin, 2001. The automatic resolution
of prepositional phrase attachment ambiguities in German. Habilitationsschrift. University of Zurich.
- [Yarowsky 95]
- David Yarowsky, 1995. "Unsupervised word sense disambiguation rivaling supervised methods". In Proceedings of 33rd
Anuual Meeting of the Association for Computational Linguistics, Cambridge, MA, 189-196.
- [Yarowsky 00]
- David Yarowsky, 2000. "Word Sense Disambiguation" In [Dale et al. 00].
Zeitplan
Datum |
Thema |
Referenten |
Titel |
31.03.03 |
UNIX und Perl |
Gerold Schneider |
Folien |
07.04.03 |
Corpora, tgrep |
Gerold Schneider Simon Clematide |
Gerolds Folien Simons Folien |
14.04.03 |
Statistik, Vektoren |
Gerold Schneider Igor Rezan |
Statistik Vektoren, Singulärwertzerlegung: Vorversion |
05.05.03 |
Tagging |
Beni Ruef Therese Rutishauser |
Brill-Tagger mit Altenglisch
Nebensätze in Schwedisch: Seminararbeit |
12.05.03 |
Chunking |
D. Assambajena & S. Roth |
Chunking als Partielles Parsing |
19.05.03 |
Parsing |
Carole Egger & Valentina Rota Beat Metzler |
Shift-Reduce Parser Philosophische Betrachtungen zur Argumentstruktur |
26.05.03 |
Parsing |
Andreas Haupt Johann Fichtner Eveline Zeller |
Earley Parser
Diskontinuierliche Konstituenz
PCFGs |
02.06.03 |
PP-Anbindung |
Daniel Cahn Anne Göhring & Nathan Labhart |
Maximum Likelihood Klassiker |
16.06.03 |
Argumentstruktur |
Rosalba di Santo Yvonne Herzig Gainsford Christiane Mzamo |
Unterscheidung Argument/Adjunkt Unsupervisierte Verbklassifikation Autom. Lernen der Argumentstruktur |
23.06.03 |
Wortassoziationen |
Magnus Carlson Jan Flueckinger Kaspar Schlüer |
Ähnlichkeiten und Assoziationen Semantic Web Wortassoziationen |
30.06.03 |
Terminologie, Stylometrie, Konnektionismus |
Filippo Svalduz Cornelia Steinmann Christoph Buchs |
Terminologie/Kollokationen Stylometrie Konnektionismus und Neuronale Netze |
Dozent
Gerold Schneider
Für Fragen etc. bitte E-Mail gschneid AT ifi.unizh.ch verwenden
Sprechstunde: nach Vereinbarung
Assistent
Simon Clematide
Weitere Angaben
Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .
http://www.ifi.unizh.ch/cl/gschneid/KorpusSeminar/index.html
16-Juni-2003
Gerold Schneider