Korpuslinguistik für und mit Computerlinguistik
Dies ist die Übersichts- und Startseite für Materialien zur
Vorlesung: Korpuslinguistik für und mit
Computerlinguistik wie sie im Wintersemester 2002/2003
an der Universität Zürich angeboten wird (Dozent: Dr. Martin Volk). Für
Anregungen bzgl. Gestaltung und Inhalt sowie Hinweise auf
relevante Hyperlinks ist der Autor sehr dankbar.
Übersicht über die Vorlesungsthemen
- Einführung, Überblick, Korpus-Beispiele, Repräsentativität,
Rechtliche Fragen
- Automatische Korpus-Annotation I (Textstruktur-Erkennung,
Satzendeerkennung, Eigennamen-Klassifikation)
- Automatische Korpus-Annotation II (PoS-Tagging,
Lemmatisierung und Lemma-Filterung, NP/PP Chunking,
Clause Boundary Detection)
- Unsupervisiertes Lernen. Lernen aus Korpora (Beispiel: PP-Anbindung)
- Manuell annotierte Korpora (Treebanks)
- Supervisiertes Lernen. Lernen aus Treebanks (Beispiel: PP-Anbindung)
- Korpus-Abfrage: Werkzeuge und Sprachen (Gastreferentin:
Charlotte Merz)
- Korpora in Lexikographie und Grammatikographie
- "Weihnachtsvorlesung"
- Das Web als Korpus
- Parallele und vergleichbare Korpora I (Alignierung,
Terminologie-Extraktion)
- Parallele und vergleichbare Korpora II (Similarity
Thesaurus, Cross-Language Retrieval, TREC-Evaluation)
- Korpora gesprochener Sprache (Beispiel: Verbmobil)
- Die Zukunft der Korpuslinguistik
Vorlesung 1: Einführung
- Termin: Dienstag, 22. Oktober 2002
- Lektüreempfehlung: [Meyer
2002; Kap. 1-3]
- Unterlagen zur Vorlesung:
- Schlüsselwörter: Geschichte der Korpus-Linguistik,
verschiedene Typen von Korpora
Vorlesung 2: Automatische Korpus-Annotation I
- Termin: Dienstag, 29. Oktober 2002
- Lektüreempfehlung: [Volk
2001; Abschnitt 3.1]
- Unterlagen zur Vorlesung:
- Schlüsselwörter: Textstruktur-Erkennung,
Satzendeerkennung, Eigennamen-Klassifikation
Vorlesung 3: Automatische Korpus-Annotation II
- Termin: Dienstag, 05. November 2002
- Lektüreempfehlung: [Volk
2001; Abschnitt 3.1, Meyer
2002; Kap. 4]
- Unterlagen zur Vorlesung:
- Schlüsselwörter: PoS-Tagging, Lemmatisierung und Lemma-Filterung,
NP/PP Chunking, Clause Boundary Detection
Vorlesung 4: Unsupervisiertes Lernen. Lernen aus Korpora (Beispiel:
PP-Anbindung)
- Schlüsselwörter: Präpositionen und Präpositionsphrasen,
Abdeckung und Genauigkeit, Clustering, Nomenfaktor, Paar-
vs. Tripel-Häufigkeiten, GermaNet
Vorlesung 5: Manuell annotierte Korpora (Treebanks)
- Schlüsselwörter: Penn-Treebank, NEGRA-Treebank,
Formate, Erstellungs-Werkzeuge
Vorlesung 6: Supervisiertes Lernen. Lernen aus Treebanks (Beispiel:
PP-Anbindung)
- Termin: Dienstag, 26. November 2002
- Lektüreempfehlung: [Volk
2001; Kapitel 7]
- Unterlagen zur Vorlesung: als PDF-Datei
- Schlüsselwörter: Back-Off Method, Transformation-Based
Learning, Kombination von unsupervisiertem und
supervisiertem Lernen
Vorlesung 7: Korpus-Abfrage: Werkzeuge und Sprachen
(Gastreferentin: Charlotte Merz)
- Schlüsselwörter: Korpus-Abfragesprachen, TIGER-Search,
Gsearch, Menü-basierte Abfragen
Vorlesung 8: Korpora in Lexikographie und Grammatikographie
- Termin: Dienstag, 10. Dezember 2002
- Lektüreempfehlung: [Ooi
1998; Kapitel 2]
- Unterlagen zur Vorlesung: als PDF-Datei
- Schlüsselwörter: Konkordanzen, Kollokationen,
Terminographie
Vorlesung 9: Weihnachtsvorlesung
- Termin: Dienstag, 17. Dezember 2002 (ab 17:00 Uhr am
Institut für Informatik, Irchel Campus)
- Lektüreempfehlung:
- Schlüsselwörter: ANNOTATE
Vorlesung 10: Das Web als Korpus
- Schlüsselwörter: Web-Häufigkeiten, PP-Attachment,
Diachronie, Linguistische Suchmaschine
Vorlesung 11: Parallele und vergleichbare Korpora I
- Termin: Dienstag, 14. Januar 2003
- Lektüreempfehlung:
- Unterlagen zur Vorlesung: als PDF-Datei
- Schlüsselwörter: Alignierung, Terminologie-Extraktion
Vorlesung 12: Parallele und vergleichbare Korpora II
- Schlüsselwörter: Similarity Thesaurus, Cross-Language
Retrieval, TREC-Evaluation
Vorlesung 13: Korpora gesprochener Sprache (Beispiel:
Verbmobil)
- Schlüsselwörter: Transkription
Vorlesung 14: Die Zukunft der Korpuslinguistik
Bibliographie
Martin Volk, 03.02.03