Linguistische Ebenen

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

1.3. Linguistische Ebenen

Ebenen der Analyse sprachlicher Information

Morphologie : Analyse, Reduktion auf Grundformen
Wörter : Wortartenbestimmung, Lexikalische Semantik
Wortgruppen : Fachbegriﬀe, Eigennamen
Phrasen und Sätze : Beziehung von Syntax und Semantik
Text : Textverstehen und Fragebeantwortung

1.3.1. Morphologie

Morphologische Ebene

F: Womit befasst sich die Morphologie? A: Wortstruktur und Wortbildung

Flexion (Wortbeugung): such+en, such+e, such+test, such+ten, ge+such+t, such+end…Frucht, Frücht+e
Derivation (Wortableitung): suchen, Suche Frucht, frucht+en, frucht+bar, un+frucht+bar, Un+frucht+bar+keit
Komposition (Wortzusammensetzung): Such+ergebnis, Text+zusammenfassung+s+system

Beispiele morphologischer Analyse

Hierarchische Wortbildungsanalyse von canoo.net

pict

Flache Wortstrukturanalyse von GERTWOL

Websuchergebnisses
"<*websuchergebnisses>"
"*web#such#er|geb~nis" S NEUTR SG GEN

Nützlichkeit morphologischer Analyse

Bestimmung der Grundform ﬂektierter Wörter

Linguistisch fundierte Normalisierung: Mütter → Mutter Im Gegensatz zum blossen Abschneiden (Trunkierung) oder heuristischen Reduzieren (Stemming)

Auﬂösung von Wortableitungen

Assoziieren von strukturell verwandten Begriﬀen: baulich → Bau Linguistik → linguistisch Interessant sind Ableitungen, welche nur Wortartwechsel beinhalten!

Zerlegung/Ergänzung von Komposita

Insbesondere Neu- bzw. Spontanbildungen, deren Bedeutung sich aus den Einzelteilen ergibt: Wohnbauförderungsmöglichkeiten → Wohnbauförderung Text- und Diskurstheorie → Texttheorie Interessant sind Teile, welche im Gebiet belegt sind!

Probleme morphologischer Analysen: Mehrdeutigkeit

Kategorielle Mehrdeutigkeit

“Müller” als Eigenname oder Substantiv
“eine” als …

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus!

Strukturelle Mehrdeutigkeit

Unterschiedliche Analysen bzw. unklare Gruppierung der Bestandteile

Müller
  "*müller" S EIGEN Famname SG NOM
  "*müller" S MASK SG NOM
Verbrechen
  "*verb#rechen" S MASK SG NOM
  "*verb#rech~en" S NEUTR SG NOM
  "*ver|brech~en" S NEUTR PL DAT
  "ver|brech~en" * V INF
  "ver|brech~en" * V IND PRÄS PL1
eine
  "ein" ART INDEF SG NOM FEM
  "ein" ART INDEF SG AKK FEM
  "einer" PRON INDEF SG NOM FEM
  "einer" PRON INDEF SG AKK FEM
  "ein~en" V IND PRÄS SG1
  "ein~en" V KONJ PRÄS SG1
  "ein~en" V KONJ PRÄS SG3
  "ein~en" V IMP PRÄS SG2

Probleme morphologischer Analyse

Unvollständigkeit

Neubildungen, Spontanbildungen, Fremdwörter
Zielkonﬂikt: Je umfassender und vollständiger, umso mehrdeutiger das Resultat!

Überanalyse

Kein Unterschied zwischen lexikalisierter Form und produktiver Bildung!

googelte

Abchase
   "*abchas~e"  S MASK SG NOM
   "*abc#hase"  S MASK SG NOM

Arbeitstag
"*arbeit\s#tag"  S MASK SG NOM
"*arbeit#stag"  S NEUTR SG NOM

Erdbeere
   "*erd#beere" S FEM SG NOM
Fingerbeeren
   "*finger#beere"  S FEM PL NOM

Endliche Automatentechnik zur Analyse
Hocheﬃziente Speicherung und Verarbeitung!

pict

Abbildung 1.1:

Lexikalischer Transduktor (von http://www.stanford.edu/~laurik/fsmbook/LSA-207/Slides/LSA2005-Lecture1.ppt)

1.3.2. Wörter

Wort

Deﬁnition 1.3.1 (nach [BUSSMANN 1990]). Wort . Intuitiv vorgegebener und umgangssprachlich verwendeter Begriﬀ für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Deﬁnitionsversuche uneinheitlich und kontrovers sind.

Beispiel 1.3.2 (Was ist ein Wort?).

Sie wollte vor allem am Text Mining Workshop teilnehmen.
Sie nahm z.B. an dem Workshop teil.
Das gibts doch nicht! “Joop!” ist pleite.
Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit. […]

Tokenisierung: Vom Zeichenstrom zur Folge von Tokens

Rohdaten

Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nur eine Folge von Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.

Token: Einheit der Textsegmentierung

Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriﬀ, syntaktische Analyse.

Tokenisierung: Im Prinzip einfach, aber trotzdem schwierig

Verwendung von Leerraum (Leerzeichen, Zeilenwechsel) als “normale” Tokengrenzen
Erkennung von Interpunktion: Satzendepunkte vs. Abkürzungspunkte
Umgang mit komplexen Tokens, welche Interpunktionszeichen und Leerraum enthalten

Probleme der Tokenisierung

Satz-Segmentierung

Wer jeden Punkt als Satzende interpretiert, liegt im Englischen in 8-45% der Fälle daneben.

Beispiel 1.3.3 (Verschmelzung im Englischen).
It was due Friday by 5 p.m. Saturday would be too late.

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

Die Tokenisierung von chinesischen Texten ist anspruchsvoll, da keine Wortabstände gemacht werden.

pict

Oben Chinesisch – unten englische Version pict

Abbildung 1.2:

Navigationselemente der Web-Site der Olympischen Spiele 2008

Token-Normalisierung
Die Modiﬁkation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten , Rückgängigmachen von Silbentrennung, Rechtschreibekorrektur bis linguistisch motivierten Operationen gehen.

Beispiel 1.3.4 (Normalisierungen).

Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich …
19000, 19’000, 19 000, 19,000
Louisa, Luise, Louise, Luisa …
doesn’t, does not
Zuk-ker, Zucker; Schiﬀ-fahrt, Schiﬀahrt; chocola-tje, chocolaatje
Bulmen, Blumen

Wortarten-Tagging

Deﬁnition 1.3.5 (Wortarten-Tagger ). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger, kurz POS-Tagger) ist ein Programm, das für jedes Token eines Textes die korrekte Wortart bestimmt, indem es ein Klassiﬁkationskürzel (z.B. Penn-Tagset) als Tag zuordnet.

Mehrdeutigkeit

Im Brown-Corpus (1 Mio. Token) haben 11% aller Wortformen mehr als 1 mögliches Tag. Das entspricht jedoch 40% der Token. Warum?

Beispiel 1.3.6 (Typische Tag-Ambiguität im Englischen).

			Nomen
			Adverb
	Verb (Partizip)		Adjektiv		Verb
Pronomen	Verb (Past)	Präposition	Verb	Artikel	Nomen

She	promised	to	back	the	bill

Nutzen und Anwendung des POS-Tagging
POS-Tagging hat sich als eine eigenständige sprachtechnologische Anwendung erwiesen, welche eﬃzient und zuverlässig durchgeführt werden kann, und für verschiedenste Zwecke nützlich ist: Lemmatisierung, Lexikographie, Terminologierkennung, Spracherkennung, Vorstufe der syntaktischen Analyse usw.

Beispiel 1.3.7 (Sprachsynthese/Bedeutungsdisambiguierung).

lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Beispiel 1.3.8 (Bestimmen der Grundform (Lemmatisierung)).

eine/Artikel: Lemma “ein”
eine/Verb: Lemma “einen”

Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.

Methoden

Lexikalische Baseline

Nimm für jedes Token das Tag, mit dem es am häuﬁgsten vorkommt. Ergibt bis 90% richtige Entscheidungen.

Beispiel 1.3.9 (Tag-Verteilung in Zeitungstext (80’000 Tokens)).

die Artikel 2351 Relativpronomen 448 Demonstrativpronomen 4
Mehrheit Nomen 40
bestimmt Partizip Perfekt 7 Finites Verb 4 Adverb 1 Adjektiv 1

Optimierungspotential: Berücksichtigung des Kontexts

Berücksichtige den linken Kontext (Tags und Tokens) und ev. den rechten Kontext (Tokens), um die Baseline-Entscheidung umzustossen.

Beispiel 1.3.10 (Kontexte: Partizip oder ﬁnites Verb).
“Sie bestimmt es.” vs “Sie hat es bestimmt.”

Evaluation von lernenden Verfahren

pict

Abbildung 1.3:

Tnt-Evaluation an Penn Treebank durch Thorsten Brants

Lexikalische Semantik

Wie lässt sich die Bedeutung eines Worts angeben?

Klassische Charakterisierung: Umschreibung, Deﬁnition

Relationale lexikalische Semantik = Bedeutungsbeziehungen

Durch Angabe von Synonymen, Hypernymen, Hyponymen, Antonymen usw., welche ein Netz von verknüpften Bedeutungen ergeben (wie Thesaurus)

Beispiel 1.3.11 (Wortnetze für viele Einzelsprachen (engl. "WordNet", dt. "GermaNet")).

Bank1 ist synonym zu Geldinstitut, Kasse, Geldhaus und hyponym zu wirtschaftliche Institution
Bank2 ist hyponym zu Sitzmöbel

Bedeutungsdesambiguierung im Kontext

“Bank” bedeutet Bank₁, wenn in der Text-Umgebung Wörter mit Bedeutungen aus dem Gebiet Geldwesen vorkommen.
“Bank” bedeutet Bank₂, wenn ...

Word-Sense-Desambiguation und Maschinelle Übersetzung

Lexikalisierung und Bedeutung über Sprachgrenzen hinweg

pict

Abbildung 1.4:

Lexikalische Überschneidungen [JURAFSKY und MARTIN 2008] nach Somers

1.3.3. Wortgruppen

Terminologische Ebene

Spezialsprachliche Fachbegriﬀe

Weisen als Zusammensetzung oder Mehrwortterme oft komplexe Struktur auf:
Computer, elektronischer Rechenanlage, free indexing, unendliche Reihe

Aufgaben

Identiﬁzieren von (ev. leicht variierten) Fachbegriﬀen: Benutzung von Begriﬀsvarianten ist extrem verbreitet
Zuordnung in Fachgebiet: Oft über Klassiﬁkation von Dokumenten
Erkennung/Erschliessung von neuer Terminologie in Texten: Automatisches Extrahieren von Terminologiekandidaten

Identiﬁziere speziﬁsch fachsprachliche Wortbestandteile!

Aﬃxe , d.h. Präﬁxe oder Suﬃxe matchen. Medizin: “-itis”, “-aemia”, “hypo-”, “peri-” wie in “hyperimmunoglobulinaemia”
Stämme matchen. Elektrotechnik: “-impuls-” wie in “Hardwareimpuls” oder “24-Volt-Impusgeber”

Diskussion

Direkt nur für einteilige Termini verwendbar.
Eng auf Anwendungsbereich abgestimmt (schlecht für kommerzielle Allzweck-TE).
Sprachübergreifend ähnliche Aﬃxe und Stämme helfe bei bilingualer TE: “Hypo-Hyperparathyreoidismus”, “hypo-hyperparathyroïdisme”, “hypo-hyperparathyroidis”

Identiﬁziere Termkandidaten anhand der Wortarten!

Sprachspeziﬁsche Wortgruppenmuster für Nominalphrasen

Adjektiv + Nomen: “non-ﬁnancial enterprise”
Nomen + Nomen: “interbank market”
Nomen + “of”-Präposition + Adjektiv + Nomen: “settlement of cross-border payments”

Eigennamen – “Named Entities”
Uninteressant für Linguistik – aber vital für praktische Systeme

Beispiel 1.3.12 (Katalogdaten mit Eigennamen).
Lise Meitner an Otto Hahn: Briefe aus den Jahren 1912 bis 1924

Erkennung von Personennamen

Meistens Verwendung von Listen und Mustern mit Kontexteinschränkungen:

Vorname gefolgt von grossgeschriebenem Wort

Einfache semantische Desambiguierung

“Hahn” hat hier nichts mit Geﬂügel oder Sanitärinstallation zu tun! Eigennamen kollidieren mit normalen Wörtern!

Weitere “Named Entities”: Interessierende Grössen

Organisationen, Firmen, Orts- und andere geographische Namen
Datums-, Währungs- und andere Massangaben
Bibliographie-Verweise (http://citeseerx.ist.psu.edu)
Verweise auf Gesetzesstellen in Rechtssammlungen

Entitäts-bezogenes WWW-IR [BAUTIN und SKIENA 2007]

20-40% des 36 Millionen Web-Queries aus dem AOL-Set sind speziﬁsch auf die Suche nach Named Entities (Personen, Firmen, Produkte) ausgerichtet
http://www.textmap.com macht “Named Entity Recognition” (NER), aggregiert und visualisiert die Information

1.3.4. Phrasen

Die syntaktische Ebene

Womit befasst sich die Syntax?

Aufbau von Phrasen (Konstituenz)
Abhängigkeit zwischen Phrasen(teilen) (Dependenz)

pict

Abbildung 1.5:

Syntaxbaum aus Übersetzungssystem

Die syntaktische Ebene
Komplexe Abhängigkeiten und Modiﬁkationsverhältnisse in realen Sätzen

pict

Chunking: Partielle syntaktische Analyse

Deﬁnition 1.3.13. Eine partielle syntaktische Analyse (ﬂache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt .

pict

Abbildung 1.6:

Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Chunking-Regeln schreiben

pict

Wie kann man die zulässigen Chunks beschreiben?

NC -> ART NN

NC : Ein NC (Nominalchunk) besteht
->: besteht aus
ART : aus einem Wort der Wortart ART (Artikel)
NN : gefolgt von einem Wort der Wortart NN (normales Nomen)

Eigenschaften des Chunkings

Eﬃzient und schnell auch für grosse Textmengen
Moderne statistische Verfahren erreichten 2000 knapp 95% Präzision und Recall!
Robust gegenüber mangelhafter oder komplizierter Sprache

Intendierte Lesart berechnen

Viele Sätze sind semantisch und/oder syntaktisch mehrdeutig.

Kaum ein Problem für Menschen, da er über viel situationales Hintergrund-, Sprach- und Weltwissen verfügt.
Riesiges Problem für Computer, welche nur symbolische Grössen auf Grund von Kombinationsregeln verrechnen!

Wahrscheinlichste Lesart berechnen

Noch sehr aufwändig und fehlerbehaftet
Syntaktische Analysen im Stil der Dependenztheorie sind für Informationsextraktion interessant
Statistische Ansätze, welche aus syntaktisch annotierten Textkorpora (sog. Baumbanken) lernen

pict

Abbildung 1.7:

Syntaxbaum aus dem TIGER-Korpus

Variabilität und Ähnlichkeit

Beispiel 1.3.14 (Gleiche Information, unterschiedliche Formulierung).
Utilisation de vues aériennes et inventaire complet des dégât
Inventaire des dégât causés par les tempêtes au moyen de vue aériennes
Inventaire des dégâts causés par les tempêtes à l’aide de vue aériennes

Beispiel 1.3.15 (Unterschiedliche Information, ähnliche Formulierung).
design computer vs. computer design
Export von Autos aus Deutschland nach den USA vs.
Export von Autos aus den USA nach Deutschland

Sprache und Bedeutung

Bedeutung ergibt sich nicht aus der Summe der verwendeten Wörter.
Syntaktische Versprachlichung ist nicht durch Bedeutung bestimmt.

Kontrollierte Sprachen

Ein Ausweg aus der Mehrdeutigkeit

Eingeschränkte Syntax
Kontrolliertes Vokabular
Eindeutigere Bedeutung

Beispiel 1.3.16 (Kontrolliertes Englisch http://attempto.ifi.uzh.ch).
“Attempto Controlled English (ACE) is a controlled natural language, i.e. a rich subset of standard English designed to serve as speciﬁcation and knowledge representation language.”

Eindeutige prädikatenlogische Bedeutung aller zulässigen Sätze
Widerspruchsfreiheit eines Textes bzw. Ableitbarkeit von Aussagen sind berechenbar

Syntax und Semantik im ACE-Wiki

pict

[A, B, C, D, E]
object(A, Sihl, named, na, eq, 1)-1
object(B, Zurich, named, na, eq, 1)-1
object(C, river, countable, na, eq, 1)-1
predicate(D, flow_through, C, B)-1
predicate(E, be, A, C)-1

1.3.5. Texte

Textuelle Ebene

Womit befasst sich die Textlinguistik?

Satzübergreifende Strukturen und Abhängigkeiten
Thema und Kohärenz von Texten und Diskursen
Bestimmen von anaphorischen Bezügen : Worauf beziehen sich Pronomen und deﬁnite Bezeichner?
Kommunikationsfunktion von Textteilen

Textlinguistik bei Frage-Antwort-Systemen

Beispiel 1.3.17 (Frage-Beantwortung im LILOG-Projekt (1989-1991)).
Im Palais Nesselrode ist das Hetjensmuseum, das 1909 eröﬀnet wurde, untergebracht. Es beﬁndet sich an der Ecke Schulstrasse und Hafengasse. Die Keramiksammlung umfasst zehntausend Objekte. Der Eintritt der Ausstellung, die von 10 bis 17 Uhr geöﬀnet ist, beträgt 2 DM. F: Wann ist das Hetjensmuseum geöﬀnet?
A: Von 10 Uhr bis 17 Uhr.

F: Ist es um 14 Uhr geöﬀnet?
A: Ja.

Schwierigkeiten bei der Beantwortung

Koreferenzauﬂösung: Hetjensmuseum = Es = Keramiksammlung = Ausstellung
Weltwissen: “Ausstellung geöﬀnet” bedeutet “Museum geöﬀnet”; “von 10 Uhr bis 17 Uhr geöﬀnet” bedeutet “um 14 Uhr geöﬀnet”

Forschungsziele heute: Textual Entailment Task

Recognising Textual Entailment Challenge

Wissenschaftliche Wettbewerbe mit systematische Evaluation der textsemantischen Schlussfolgerung

Entscheidungsaufgabe http://pascallin.ecs.soton.ac.uk

Folgt ein Satz aus einem Textstück? Ja oder Nein?

Text	Hypothese	Entscheidung

Eyeing the huge market potential, currently led by Google, Yahoo took over search company Overture Services Inc last year.	Yahoo bought Overture.	Ja.

The National Institute for Psychobiology in Israel was established in May 1971 as the Israel Center for Psychobiology by Prof. Joel.	Israel was established in May 1971.	Nein.

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]