In der Sprachtechnologie
versucht man, nützliche Software zu schreiben, welche
bestimmte sprachliche Leistungen des Menschen nachahmt.
Computerprogramme dienen damit als selbständige Anwendungen
für den Endbenutzer; sie sind Selbstzweck.
Einige Beispiele
Automatisches Übersetzen
Die Qualität vieler automatisch
erzeugter Übersetzungen ist unbefriedigend. Besonderer
Handlungsbedarf besteht beim Übersetzen gesprochener
Sprache, dem Dolmetschen.
Es ist eines der zentralen Ziele der
Sprachtechnologie, massiv bessere Übersetzungssoftware zu
entwickeln. Man verfolgt dabei ganz verschiedene Ansätze,
die man aber auch kombinieren kann: Statistische Ansätze
(man errechnet aus Texten und schon vorhandenen Übersetzungen
automatisch Korrelationen zwischen ganzen Sätzen und deren
Übersetzungen); beispielbasierte Ansätze (man
speichert Satzfragmente und deren Übersetzungen),
regelbasierte Ansätze (man ermittelt, welche Satzstrukturen
der Ausgangssprache welchen Strukturen der Zielsprache
entsprechen) u.a.m.
Fragen beantworten
Die Menge von textueller
Information, auf die wir (v.a. durch das WWW) Zugriff haben, ist
fast unerschöpflich. Aber bestehende Suchverfahren erlauben
es uns im wesentlichen nur, nach dem Vorkommen von Stichwörtern
in Texten zu suchen und uns die entsprechenden Dokumente (resp.
Passagen darin) ausgeben zu lassen. Das ist zu wenig präzis,
weshalb wir auf diese Art regelmässig sehr viele
unzutreffende Stellen nachgewiesen bekommen.
Sehr viel besser wäre es, wir
könnten einem Suchsystem Fragen stellen, die es auf der
Basis des Inhalts der Texte direkt beantwortet, statt uns nur
(mehr oder weniger) relevante Textstellen zu finden, die wir
dann selbst lesen müssen. Derartige „Question
Answering Systems“ sind ein weiteres wichtiges Ziel der
Sprachtechnologie. Es kann nur erreicht werden, wenn man die
Bedeutung von Sätzen zuverlässiger und effizienter
errechnen kann, als das bisher möglich ist.
Texte zusammenfassen
Ausserordentlich nützlich wären
Systeme, welche uns automatisch Texte zuammenfassen. Wenn man
sich nur einen groben Überblick über den Inhalt eines
Texts verschaffen will, wäre eine unspezifische
Zusammenfassung genügend; wenn man ganz spezifische
Informationsbedürfnisse hat, möchte man, dass das
System eine massgeschneiderte Zusammenfassung erstellt, welche
genau diese Gesichtspunkte berücksichtigt. Auch hier sind
die (wenigen) bestehenden Systeme unbefriedigend. Meist
identifzieren sie lediglich jene Sätze im Ursprungstext, in
denen bestimmte Stichwörter besonders oft vorkommen, und
stückeln diese Sätze dann zusammen. Dabei kommen
„Texte“ heraus, die kaum lesbar sind, weil die
unveränderten Sätze des Ursprungstexts unverbunden
nebeneinander stehen.
Die Herausforderung für die
Sprachtechnologie besteht darin, die Relevanz der in den
einzelnen Satzbestandteilen ausgedrückten
Information zu ermitteln und daraus neue Sätze zu erzeugen,
die zusammen einen gut lesbaren Text ergeben. Dazu muss die
Bedeutung der Satzbestandteile berechnet werden, und die neuen
Sätze müssen nach den Regeln der Grammatik erzeugt
werden.

In der Computerlinguistik
versucht man zu verstehen, wie menschliche Sprachen
funktionieren, indem man sie mit Computern analysiert.
Computerprogramme dienen also als wissenschaftliche
Untersuchungsinstrumente für die Linguistik; sie sind nicht
Selbstzweck.
Einige Beispiele:
Durchsuchen von Texten nach sprachlichen
Konstruktionen
Um zu ermitteln, wie z.B. das passé
simple im heutigen Französischen verwendet wird, muss
man in grossen Mengen zeitgenössischer
französischsprachiger Texte Beispiele für derartige
Konstruktionen finden.
Um eine zuverlässige Übersicht
zu erhalten, muss man dazu Texte im Umfang von vielen Millionen
Wörtern durchsuchen und auswerten. Das kann man nur mit
Computern machen. Dazu müssen aber entsprechende
Computerprogramme alle Vorkommen eines passé simple
(beliebiger Verbklassen!) identifizieren können. Dazu
braucht man die Methoden der Computerlinguistik.
Automatisches Austesten von Grammatiken
Von Hand geschriebene Grammatiken
menschlicher Sprachen sind fast immer unvollständig,
manchmal fehlerhaft und erstaunlich oft in sich widersprüchlich.
Wenn man einen Computer dazu
benutzt, um aus solchen Grammatiken automatisch Sätze
erzeugen zu lassen, stösst man rasch auf Fehler und
Inkonsistenzen. Wenn man den Computer dazu verwendet, Texte
anhand der Grammatiken automatisch grammatikalisch analysieren
zu lassen, findet man Lücken. Auf diese Art kann man
Grammatiken weit zuverlässiger austesten, als dies von von
Hand je möglich wäre.
Identifizieren von Mehrdeutigkeiten von
Sätzen
Fast alle Sätze menschlicher
Sprachen sind mehrdeutig – nur merkt man das als Mensch
oft nicht. So kann der Satz „Jeder Mann liebt eine Frau“
heissen, dass jeder Mann eine (potentiell) andere Frau liebt,
oder aber jeder Mann ein- und dieselbe Frau. Diese zwei
konkurrierenden Bedeutungen kommen in der Satzstruktur nicht
klar zum Ausdruck. Wenn ein Compuer aber den Satz übersetzen
soll, oder wenn er eine Frage dazu beantworten soll, dann muss
er wissen, welche der Lesarten vom Schreiber intendiert war --
und dazu muss er diese verschiedenen Lesarten zuerst
identifizieren.
Wenn man einen Computer dazu
benutzt, alle möglichen Bedeutungen eines Satzes
automatisch zu errechnen und in einer sprachunabhängigen
Form, einer Art „Gedankenschrift“ darzustellen
(heute meist in einer Form der Logik), wird jede Bedeutung in
einer eigenen, für sich eindeutigen, „Logischen Form“
dargestellt. Statt einem einzigen mehrdeutigen Satz hat
man also mehrere eindeutige Logische Formen. So erkennt
man auch implizite Bedeutungen von Sätzen, die dem Menschen
sonst entgehen würden. Oder können Sie von Hand
ermitteln, wie viele potentielle Bedeutungen der Satz „In
most democratic countries most politicians can fool most of the
people on almost every issue most of the time“ hat?
(Es sind 120!).

|