University of Zurich Department of Computer Science CL group


Universität Zürich

Institut für Computerlinguistik


Spezialvorlesung in Computerlinguistik:

Effiziente Analyse unbeschränkter Texte

Gerold Schneider

Wintersemester 2005/2006


Donnerstag, 10.15 - 12.00, Raum IFI 27-H-25

Den OLAT Link zu dieser Vorlesung finden sie hier.

Überblick

Die linguistische Analyse unbeschränkter Texte ist häufig zu komplex, zeitaufwendig und fehleranfällig, um in der Praxis, zum Beispiel im Information Retrieval oder Knowledge Management, angewendet zu werden. In dieser Vorlesung werden Parsingverfahren vorgestellt, die dank effizienter Vorverarbeitung sowie statistischem und linguistischem Wissen syntaktische und oberflächensemantische Analysen genügend zuverlässig und schnell liefern. Von der anschaulichen Idee wird schrittweise bis zur konkreten Implementierung eines tiefensyntaktischen Parsers aufgebaut.

Nach einer Einführung in syntaktisch annotierte Korpora (Treebanks) und Dependenzgrammatik schreiben wir gemeinsam einen einfachen Shift-Reduce Parser und einen effizienten CYK Parser in Prolog. Es wird im Detail gezeigt, wie grammatische Relationen, die wir als Dependenzstrukturen verwenden, aus einer Treebank extrahiert und zur statistischen Ambiguitätsauflösung wie auch einer Effizienzsteigerung eingesetzt werden. Wir schreiben eine englische Grammatik (bei Interesse seitens der Studenten möglicherweise auch ein deutsche) und erläutern eine Reihe von linguistischen und statistischen Experimenten. Eine Evaluierung und Überlegungen zu den Grenzen der Lexikalisierung runden die Vorlesung ab.

Allgemeine Literatur:

 Abeillé, Anne, ed., 2003. Building and using Parsed Corpora. Dordrecht: Kluwer.
 Collins, Michael, 1999. Head-Driven Statistical Models for Natural Language Processing. Ph.D. dissertation, University of Pennsylvania, Philadelphia
 Oakes, Michael P., 1998. Statistics for Corpus Linguistics. Edinburgh Textbooks in Empirical Linguistics. Edinburgh University Press.
 Schneider, Gerold, 2003. "Extracting and Using Trace-Free Functional Dependencies from the Penn Treebank to Reduce Parsing Complexity". In: Proceedings of TLT 2003, Växjö, Sweden.
 Schneider, Gerold, 2004. "Combining Shallow and Deep Processing for a Robust, Fast, Deep-Linguistic Dependency Parser". In: Proceedings of ESSLLI Workshop on Combining Shallow and Deep Methods, Nancy, France.

Voraussetzungen

 Grundkenntnisse (oder Aufarbeitungswille) in Linguistik und in Prolog sind empfehlenswert


Vorläufiger Zeitplan

~
No. Datum Thema Lektüre
1 27.10.05 Einführung
2 03.11.05 Disambiguierung am Beispiel der PP-Anbindung Collins & Brooks 95, Cahn 03
- 10.11.05 Diese Vorlesung fällt vortragsbedingt aus.
3 17.11.05 Treebanks und Dependenzgrammatik Slides as .pdf, the same as .ps siehe in den Slides
4 24.11.05 Klassische statistische Zugänge Slides on Collins 96 Collins 96 Paper
5 01.12.05 Die Kunst der Extraktion grammatischer Relationen.
Teil I: TLT Conference Slides. Teil II: Einführung in tgrep
Tgrep2 Manual , Schneider 03b
6 08.12.05 Ein einfacher Shift-Reduce Parser Matsumoto and Yamada 03, pp. 1-13
Naumann & Langer 94, pp. 63-77
7 15.12.05 Ein effizienter CYK Parser Naumann & Langer 94, pp. 106-122
8 22.12.05 Pruning and Beam Search
9 12.01.05 Grammar Engineering
10 19.01.06 Evaluierung Lin 95, Carroll et al. in Abeillé, ed., 2003.
11 26.01.06 Experimente I: Distanzen, Lexikalisierung, PCFG, Interaktionen
Experimente II: Hindle & Rooth, Lexikalisierung, Wort-Sinn-Disambiguierung
Schneider 03c
12 02.02.06 Experimente III: Optimierung auf Präzision und Ausbeute
Biomedizinische Anwendungen: Gene and Protein Relation Extraction
Korpuslinguistische Anwendungen: The Parsed BNC (British National Corpus)
Eventuell auch Deutsch, Theta-Rollen
Lektüre siehe in OLAT
13 09.02.06 teilweise noch offen: Psycholinguistische Adäquatheit; Vergleich mit LFG und TAG; evtl. Studentenvorträge

Ausgewählte themenspezifische Literatur

[Abney 96]
Steven Abney, 1996. "Partial parsing via finite-state cascades". In Proceedings of the ESSLLI '96 robust parsing workshop. Prague, Czech Republic.
[Cahn 03]
Daniel Cahn, 2003. "Präpositionalphrasenanbindung: Statistische Ansätze". Seminararbeit, Uni Zürich.
[Carroll 00]
John A. Carroll, 2000. "Statistical Parsing". In [Dale et al. 00].
[Carroll et al. f.c.]
John A. Carroll, Guido Minnen and Ted Briscoe, forthcoming. "Parser Evaluation Using a Grammatical Relation Annotation Scheme." In [Abeillé f.c.].
[Collins & Brooks 95]
Michael Collins and James Brooks, 1995. "Prepositional phrase attachment through a backed-off model". In Proceedings of the Third Workshop on Very Large Corpora, 27-38.
[Dale et al. 00]
Robert Dale, Hermann Moisl and Harold Somers, 2000. Handbook of Natural Language Processing. Dekker, New York.
[Dubey & Keller 03]
Amit Dubey and Frank Keller. 2003. "Probabilistic Parsing for German using Sister-Head Dependencies". In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, 96-103. Sapporo.
[Gildea & Jurafsky 00]
Daniel Gildea and Daniel Jurafsky. "Automatic Labeling of Semantic Roles". In Proceedings of the 38th Annual Conference of the Association for Computational Linguistics (ACL-00), pages 512-520, Hong Kong.
[Hindle & Rooth 93]
David Hindle and Mats Rooth, 1993. "Structural ambiguity and lexical relations". Computational Linguistics, Vol. 19:1, 103-120.
[Lin 95]
Dekang Lin, 1995. "A Dependency-Based Method for Evaluating Broad-Coverage Parsers". In Proceedings of IJCAI-95.
[Naumann & Langer 94]
Sven Naumann und Hagen Langer, 1994. Parsing. Teubner, Stuttgart.
[Rapp 96]
Reinhard Rapp, 1996. Die Berechnung von Assoziationen: ein korpuslinguistischer Ansatz. Hildesheim; Zürich; New York: Olms.
[Volk 01]
Volk, Martin, 2001. The automatic resolution of prepositional phrase attachment ambiguities in German. Habilitationsschrift. University of Zurich.
[Yarowsky 00]
David Yarowsky, 2000. "Word Sense Disambiguation" In [Dale et al. 00].

Dozent

 Gerold Schneider

Für Fragen etc. bitte E-Mail gschneid AT ifi.unizh.ch verwenden

Sprechstunde: nach Vereinbarung

Weitere Angaben

Weitere Angaben zum Studium der Computerlinguistik in Zürich finden Sie hier .


University of Zurich Department of Computer Science  CL group


http://www.ifi.unizh.ch/cl/gschneid/ParserVorl/index.html      28-Juni-2005      Gerold Schneider