1.3.  Linguistische Ebenen

Linguistische Ebenen 

Ebenen der Analyse sprachlicher Information

1.3.1.  Morphologie

Morphologische Ebene 

F: Womit befasst sich die Morphologie? A: Wortstruktur und Wortbildung

Beispiele morphologischer Analyse 

Hierarchische Wortbildungsanalyse von canoo.net


pict


Flache Wortstrukturanalyse von GERTWOL

Websuchergebnisses  
"<*websuchergebnisses>"  
   "*web#such#er|geb~nis"  S NEUTR SG GEN

Nützlichkeit morphologischer Analyse 

Bestimmung der Grundform flektierter Wörter

Linguistisch fundierte Normalisierung: Mütter Mutter Im Gegensatz zum blossen Abschneiden (Trunkierung) oder heuristischen Reduzieren (Stemming)

Auflösung von Wortableitungen

Assoziieren von strukturell verwandten Begriffen: baulich Bau Linguistik linguistisch Interessant sind Ableitungen, welche nur Wortartwechsel beinhalten!

Zerlegung/Ergänzung von Komposita

Insbesondere Neu- bzw. Spontanbildungen, deren Bedeutung sich aus den Einzelteilen ergibt: Wohnbauförderungsmöglichkeiten Wohnbauförderung Text- und Diskurstheorie Texttheorie Interessant sind Teile, welche im Gebiet belegt sind!

Probleme morphologischer Analysen: Mehrdeutigkeit 

Kategorielle Mehrdeutigkeit

Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus!

Strukturelle Mehrdeutigkeit

Unterschiedliche Analysen bzw. unklare Gruppierung der Bestandteile

Müller  
  "*müller" S EIGEN Famname SG NOM  
  "*müller" S MASK SG NOM  
Verbrechen  
  "*verb#rechen" S MASK SG NOM  
  "*verb#rech~en" S NEUTR SG NOM  
  "*ver|brech~en" S NEUTR PL DAT  
  "ver|brech~en" * V INF  
  "ver|brech~en" * V IND PRÄS PL1  
eine  
  "ein" ART INDEF SG NOM FEM  
  "ein" ART INDEF SG AKK FEM  
  "einer" PRON INDEF SG NOM FEM  
  "einer" PRON INDEF SG AKK FEM  
  "ein~en" V IND PRÄS SG1  
  "ein~en" V KONJ PRÄS SG1  
  "ein~en" V KONJ PRÄS SG3  
  "ein~en" V IMP PRÄS SG2

Probleme morphologischer Analyse 

Unvollständigkeit

Überanalyse

Kein Unterschied zwischen lexikalisierter Form und produktiver Bildung!

googelte  
 
 
Abchase  
   "*abchas~e"  S MASK SG NOM  
   "*abc#hase"  S MASK SG NOM  
 
Arbeitstag  
"*arbeit\s#tag"  S MASK SG NOM  
"*arbeit#stag"  S NEUTR SG NOM  
 
 
Erdbeere  
   "*erd#beere" S FEM SG NOM  
Fingerbeeren  
   "*finger#beere"  S FEM PL NOM  

Endliche Automatentechnik zur Analyse 
Hocheffiziente Speicherung und Verarbeitung!


pict


1.3.2.  Wörter

Wort 

Definition 1.3.1 (nach [BUSSMANN 1990]). Wort . Intuitiv vorgegebener und umgangssprachlich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definitionsversuche uneinheitlich und kontrovers sind.

Beispiel 1.3.2 (Was ist ein Wort?).

  1. Sie wollte vor allem am Text Mining Workshop teilnehmen.
  2. Sie nahm z.B. an dem Workshop teil.
  3. Das gibts doch nicht! “Joop!” ist pleite.
  4. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit. […]

Tokenisierung: Vom Zeichenstrom zur Folge von Tokens 

Rohdaten

Rohe, elektronische Sprachdaten liegen in Dateien vor, welche nur eine Folge von Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.

Token: Einheit der Textsegmentierung

Tokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Systeme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syntaktische Analyse.

Tokenisierung: Im Prinzip einfach, aber trotzdem schwierig

Probleme der Tokenisierung 

Satz-Segmentierung

Wer jeden Punkt als Satzende interpretiert, liegt im Englischen in 8-45% der Fälle daneben.

Beispiel 1.3.3 (Verschmelzung im Englischen).
It was due Friday by 5 p.m. Saturday would be too late.

Wort-Segmentierung in nicht-segmentierten Schreibsystemen

Die Tokenisierung von chinesischen Texten ist anspruchsvoll, da keine Wortabstände gemacht werden.


pict

Oben Chinesisch – unten englische Version pict

Abbildung 1.2: Navigationselemente der Web-Site der Olympischen Spiele 2008


Token-Normalisierung 
Die Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Varianten , Rückgängigmachen von Silbentrennung, Rechtschreibekorrektur bis linguistisch motivierten Operationen gehen.

Beispiel 1.3.4 (Normalisierungen).

Wortarten-Tagging 

Definition 1.3.5 (Wortarten-Tagger ). Ein Wortarten-Tagger (engl. Part-of-Speech Tagger, kurz POS-Tagger) ist ein Programm, das für jedes Token eines Textes die korrekte Wortart bestimmt, indem es ein Klassifikationskürzel (z.B. Penn-Tagset) als Tag zuordnet.

Mehrdeutigkeit

Im Brown-Corpus (1 Mio. Token) haben 11% aller Wortformen mehr als 1 mögliches Tag. Das entspricht jedoch 40% der Token. Warum?

Beispiel 1.3.6 (Typische Tag-Ambiguität im Englischen).

Nomen
Adverb
Verb (Partizip) Adjektiv Verb
Pronomen Verb (Past) Präposition Verb Artikel Nomen






She promised to back the bill

Nutzen und Anwendung des POS-Tagging 
POS-Tagging hat sich als eine eigenständige sprachtechnologische Anwendung erwiesen, welche effizient und zuverlässig durchgeführt werden kann, und für verschiedenste Zwecke nützlich ist: Lemmatisierung, Lexikographie, Terminologierkennung, Spracherkennung, Vorstufe der syntaktischen Analyse usw.

Beispiel 1.3.7 (Sprachsynthese/Bedeutungsdisambiguierung).

Beispiel 1.3.8 (Bestimmen der Grundform (Lemmatisierung)).

Der Apostroph in der phonetischen Umschreibung steht vor der hauptbetonten Silbe.

Methoden 

Lexikalische Baseline

Nimm für jedes Token das Tag, mit dem es am häufigsten vorkommt. Ergibt bis 90% richtige Entscheidungen.

Beispiel 1.3.9 (Tag-Verteilung in Zeitungstext (80’000 Tokens)).

die Artikel 2351 Relativpronomen 448 Demonstrativpronomen 4  
Mehrheit Nomen 40  
bestimmt Partizip Perfekt 7 Finites Verb 4 Adverb 1 Adjektiv 1

Optimierungspotential: Berücksichtigung des Kontexts

Berücksichtige den linken Kontext (Tags und Tokens) und ev. den rechten Kontext (Tokens), um die Baseline-Entscheidung umzustossen.

Beispiel 1.3.10 (Kontexte: Partizip oder finites Verb).
“Sie bestimmt es.” vs “Sie hat es bestimmt.”

Evaluation von lernenden Verfahren 


pict

Abbildung 1.3: Tnt-Evaluation an Penn Treebank durch Thorsten Brants

Lexikalische Semantik 

Wie lässt sich die Bedeutung eines Worts angeben?

Klassische Charakterisierung: Umschreibung, Definition

Relationale lexikalische Semantik = Bedeutungsbeziehungen

Durch Angabe von Synonymen, Hypernymen, Hyponymen, Antonymen usw., welche ein Netz von verknüpften Bedeutungen ergeben (wie Thesaurus)

Beispiel 1.3.11 (Wortnetze für viele Einzelsprachen (engl. "WordNet", dt. "GermaNet")).

Bedeutungsdesambiguierung im Kontext 

Word-Sense-Desambiguation und Maschinelle Übersetzung

Lexikalisierung und Bedeutung über Sprachgrenzen hinweg


pict

Abbildung 1.4: Lexikalische Überschneidungen [JURAFSKY und MARTIN 2008] nach Somers


1.3.3.  Wortgruppen

Terminologische Ebene 

Spezialsprachliche Fachbegriffe

Weisen als Zusammensetzung oder Mehrwortterme oft komplexe Struktur auf:
Computer, elektronischer Rechenanlage, free indexing, unendliche Reihe

Aufgaben

Identifiziere spezifisch fachsprachliche Wortbestandteile!

Diskussion

Identifiziere Termkandidaten anhand der Wortarten!

Sprachspezifische Wortgruppenmuster für Nominalphrasen

Eigennamen – “Named Entities” 
Uninteressant für Linguistik – aber vital für praktische Systeme

Beispiel 1.3.12 (Katalogdaten mit Eigennamen).
Lise Meitner an Otto Hahn: Briefe aus den Jahren 1912 bis 1924

Erkennung von Personennamen

Meistens Verwendung von Listen und Mustern mit Kontexteinschränkungen:

Vorname gefolgt von grossgeschriebenem Wort

Einfache semantische Desambiguierung

“Hahn” hat hier nichts mit Geflügel oder Sanitärinstallation zu tun! Eigennamen kollidieren mit normalen Wörtern!

Weitere “Named Entities”: Interessierende Grössen 

Entitäts-bezogenes WWW-IR [BAUTIN und SKIENA 2007]

1.3.4.  Phrasen

Die syntaktische Ebene 

Womit befasst sich die Syntax?


pict

Abbildung 1.5: Syntaxbaum aus Übersetzungssystem

Die syntaktische Ebene 
Komplexe Abhängigkeiten und Modifikationsverhältnisse in realen Sätzen


pict


Chunking: Partielle syntaktische Analyse 

Definition 1.3.13. Eine partielle syntaktische Analyse (flache Analyse, engl. shallow parsing) berechnet für einen Satz keine vollständige Analyse bezüglich Konstituenz und Dependenz. Gewisse Teilstrukturen bleiben nebengeordnet und in ihrer syntaktischen Funktion unbestimmt .


pict

Abbildung 1.6: Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid

Chunking-Regeln schreiben 


pict


Wie kann man die zulässigen Chunks beschreiben?

NC -> ART NN

Eigenschaften des Chunkings 

Intendierte Lesart berechnen 

Viele Sätze sind semantisch und/oder syntaktisch mehrdeutig.

Wahrscheinlichste Lesart berechnen


pict

Abbildung 1.7: Syntaxbaum aus dem TIGER-Korpus


Variabilität und Ähnlichkeit 

Beispiel 1.3.14 (Gleiche Information, unterschiedliche Formulierung).
Utilisation de vues aériennes et inventaire complet des dégât
Inventaire des dégât causés par les tempêtes au moyen de vue aériennes
Inventaire des dégâts causés par les tempêtes à l’aide de vue aériennes

Beispiel 1.3.15 (Unterschiedliche Information, ähnliche Formulierung).
design computer vs. computer design
Export von Autos aus Deutschland nach den USA vs.
Export von Autos aus den USA nach Deutschland

Sprache und Bedeutung

Kontrollierte Sprachen 

Ein Ausweg aus der Mehrdeutigkeit

Beispiel 1.3.16 (Kontrolliertes Englisch http://attempto.ifi.uzh.ch).
“Attempto Controlled English (ACE) is a controlled natural language, i.e. a rich subset of standard English designed to serve as specification and knowledge representation language.”

Syntax und Semantik im ACE-Wiki 


pict


[A, B, C, D, E]  
object(A, Sihl, named, na, eq, 1)-1  
object(B, Zurich, named, na, eq, 1)-1  
object(C, river, countable, na, eq, 1)-1  
predicate(D, flow_through, C, B)-1  
predicate(E, be, A, C)-1

1.3.5.  Texte

Textuelle Ebene 

Womit befasst sich die Textlinguistik?

Textlinguistik bei Frage-Antwort-Systemen 

Beispiel 1.3.17 (Frage-Beantwortung im LILOG-Projekt (1989-1991)).
Im Palais Nesselrode ist das Hetjensmuseum, das 1909 eröffnet wurde, untergebracht. Es befindet sich an der Ecke Schulstrasse und Hafengasse. Die Keramiksammlung umfasst zehntausend Objekte. Der Eintritt der Ausstellung, die von 10 bis 17 Uhr geöffnet ist, beträgt 2 DM. F: Wann ist das Hetjensmuseum geöffnet?
A: Von 10 Uhr bis 17 Uhr.

F: Ist es um 14 Uhr geöffnet?
A: Ja.

Schwierigkeiten bei der Beantwortung

Forschungsziele heute: Textual Entailment Task 

Recognising Textual Entailment Challenge

Wissenschaftliche Wettbewerbe mit systematische Evaluation der textsemantischen Schlussfolgerung

Entscheidungsaufgabe http://pascallin.ecs.soton.ac.uk

Folgt ein Satz aus einem Textstück? Ja oder Nein?


Text

Hypothese

Entscheidung



Eyeing the huge market potential, currently led by Google, Yahoo took over search company Overture Services Inc last year.

Yahoo bought Overture.

Ja.



The National Institute for Psychobiology in Israel was established in May 1971 as the Israel Center for Psychobiology by Prof. Joel.

Israel was established in May 1971.

Nein.