Universität Zürich
Institut für Computerlinguistik
Spezialvorlesung in Computerlinguistik:
Effiziente Analyse unbeschränkter Texte
Gerold Schneider
Wintersemester 2005/2006
Donnerstag, 10.15 - 12.00, Raum IFI 27-H-25
Den OLAT Link zu dieser Vorlesung finden sie hier.
Überblick
Die linguistische Analyse unbeschränkter Texte ist häufig zu komplex, zeitaufwendig und fehleranfällig, um in der Praxis, zum Beispiel
im Information Retrieval oder Knowledge Management, angewendet zu werden. In dieser Vorlesung werden Parsingverfahren
vorgestellt, die dank effizienter Vorverarbeitung sowie statistischem und linguistischem Wissen syntaktische und
oberflächensemantische Analysen genügend zuverlässig und schnell liefern. Von der anschaulichen Idee wird schrittweise bis zur
konkreten Implementierung eines tiefensyntaktischen Parsers aufgebaut.
Nach einer Einführung in syntaktisch annotierte Korpora (Treebanks) und Dependenzgrammatik schreiben wir gemeinsam einen einfachen
Shift-Reduce Parser und einen effizienten CYK Parser in Prolog.
Es wird im Detail gezeigt, wie grammatische Relationen, die wir als Dependenzstrukturen verwenden, aus einer Treebank extrahiert und zur
statistischen Ambiguitätsauflösung wie auch einer Effizienzsteigerung eingesetzt werden. Wir schreiben eine englische Grammatik (bei Interesse seitens
der Studenten möglicherweise auch ein deutsche) und erläutern eine Reihe von linguistischen und statistischen Experimenten.
Eine Evaluierung und Überlegungen zu den Grenzen der Lexikalisierung runden die Vorlesung ab.
Allgemeine Literatur:
Abeillé, Anne, ed., 2003.
Building and using Parsed Corpora. Dordrecht: Kluwer.
Collins, Michael, 1999. Head-Driven Statistical Models for Natural Language Processing.
Ph.D. dissertation, University of Pennsylvania, Philadelphia
Oakes, Michael P., 1998. Statistics for Corpus Linguistics.
Edinburgh Textbooks in Empirical Linguistics. Edinburgh University Press.
Schneider, Gerold, 2003.
"Extracting and Using Trace-Free Functional Dependencies from
the Penn Treebank to Reduce Parsing Complexity".
In: Proceedings of TLT 2003, Växjö, Sweden.
Schneider, Gerold, 2004. "Combining Shallow and Deep Processing for a Robust, Fast, Deep-Linguistic Dependency Parser".
In: Proceedings of ESSLLI Workshop on Combining Shallow and Deep Methods, Nancy, France.
Voraussetzungen
Grundkenntnisse (oder Aufarbeitungswille) in Linguistik und in Prolog sind empfehlenswert
Vorläufiger Zeitplan
No. |
Datum |
Thema |
Lektüre |
1 |
27.10.05 |
Einführung |
2 |
03.11.05 |
Disambiguierung am Beispiel der PP-Anbindung |
Collins & Brooks 95, Cahn 03 |
- |
10.11.05 |
Diese Vorlesung fällt vortragsbedingt aus. |
|
3 |
17.11.05 |
Treebanks und Dependenzgrammatik Slides as .pdf, the same as .ps |
siehe in den Slides |
4 |
24.11.05 |
Klassische statistische Zugänge
Slides on Collins 96
|
Collins 96 Paper
|
5 |
01.12.05 |
Die Kunst der Extraktion grammatischer Relationen.
Teil I: TLT Conference Slides.
Teil II: Einführung in tgrep |
Tgrep2 Manual
, Schneider 03b |
6 |
08.12.05 |
Ein einfacher Shift-Reduce Parser |
Matsumoto and Yamada 03, pp. 1-13
Naumann & Langer 94, pp. 63-77 |
7 |
15.12.05 |
Ein effizienter CYK Parser |
Naumann & Langer 94, pp. 106-122 |
8 |
22.12.05 |
Pruning and Beam Search |
9 |
12.01.05 |
Grammar Engineering | ~
10 |
19.01.06 |
Evaluierung |
Lin 95, Carroll et al. in Abeillé, ed., 2003. |
11 |
26.01.06 |
Experimente I: Distanzen, Lexikalisierung, PCFG, Interaktionen
Experimente II: Hindle & Rooth, Lexikalisierung, Wort-Sinn-Disambiguierung |
Schneider 03c |
12 |
02.02.06 |
Experimente III: Optimierung auf Präzision und Ausbeute
Biomedizinische Anwendungen: Gene and Protein Relation Extraction
Korpuslinguistische Anwendungen: The Parsed BNC (British National Corpus)
Eventuell auch
Deutsch, Theta-Rollen | Lektüre siehe in OLAT |
13 |
09.02.06 |
teilweise noch offen: Psycholinguistische Adäquatheit; Vergleich mit LFG und TAG; evtl. Studentenvorträge |
Ausgewählte themenspezifische Literatur
- [Abney 96]
- Steven Abney, 1996. "Partial parsing via finite-state cascades". In Proceedings of the ESSLLI '96 robust parsing workshop. Prague, Czech Republic.
- [Cahn 03]
- Daniel Cahn, 2003. "Präpositionalphrasenanbindung: Statistische Ansätze". Seminararbeit, Uni Zürich.
- [Carroll 00]
- John A. Carroll, 2000. "Statistical Parsing". In [Dale et al. 00].
- [Carroll et al. f.c.]
- John A. Carroll, Guido Minnen and Ted Briscoe, forthcoming. "Parser Evaluation Using a Grammatical Relation Annotation Scheme."
In [Abeillé f.c.].
- [Collins & Brooks 95]
- Michael Collins and James Brooks, 1995. "Prepositional phrase attachment through a backed-off model". In Proceedings
of the Third Workshop on Very Large Corpora, 27-38.
- [Dale et al. 00]
- Robert Dale, Hermann Moisl and Harold Somers, 2000. Handbook of Natural Language Processing. Dekker, New York.
- [Dubey & Keller 03]
- Amit Dubey and Frank Keller. 2003. "Probabilistic Parsing for German using Sister-Head Dependencies".
In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, 96-103. Sapporo.
- [Gildea & Jurafsky 00]
- Daniel Gildea and Daniel Jurafsky. "Automatic Labeling of Semantic Roles". In Proceedings of the 38th
Annual Conference of the Association for Computational Linguistics (ACL-00), pages 512-520, Hong Kong.
- [Hindle & Rooth 93]
- David Hindle and Mats Rooth, 1993. "Structural ambiguity and lexical relations". Computational Linguistics,
Vol. 19:1, 103-120.
- [Lin 95]
- Dekang Lin, 1995. "A Dependency-Based Method for Evaluating Broad-Coverage Parsers".
In Proceedings of IJCAI-95.
- [Naumann & Langer 94]
- Sven Naumann und Hagen Langer, 1994. Parsing. Teubner, Stuttgart.
- [Rapp 96]
- Reinhard Rapp, 1996. Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz. Hildesheim; Zürich; New
York: Olms.
- [Volk 01]
- Volk, Martin, 2001. The automatic resolution
of prepositional phrase attachment ambiguities in German. Habilitationsschrift. University of Zurich.
- [Yarowsky 00]
- David Yarowsky, 2000. "Word Sense Disambiguation" In [Dale et al. 00].
Dozent
Gerold Schneider
Für Fragen etc. bitte E-Mail gschneid AT ifi.unizh.ch verwenden
Sprechstunde: nach Vereinbarung
Weitere Angaben
Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .
http://www.ifi.unizh.ch/cl/gschneid/ParserVorl/index.html
28-Juni-2005
Gerold Schneider