Diese Vorlesung basiert auf der meines Vorgängers Martin Volk. Sie wurde überarbeitet und leicht ergänzt.
Grammar writing is much more difficult than rule writing. The intricate interrelations of the individual rules of a grammar make grammar writing a complex and error-prone process, much like computer programming. Friedman ``Computational Testing of Linguistic Models in Syntax and Semantics''; 1989
Die Themen dieser Vorlesung orientieren sich vor allem an [Borsley 91/97].
"Der Terminus Syntax kommt vom altgriechichischen syntaxis und heisst ursprünglich so viel wie 'Zusammenstellung' oder 'Anordung'. Üblicherweise wird in der Grammatik darunter die Lehre von der Anordung der Wörter zu Sätzen verstanden." [Linke 91]
Syntaxtheorie verfolgt zwei Ziele:
Der zweite Punkt unterstellt, dass natürliche Sprachen sich bzgl. ihrer Struktur nicht beliebig unterscheiden (wie man noch in den 50er Jahren glaubte). Es sind Phänomene vorstellbar, die in keiner natürlichen Sprache auftreten. Es gibt keine Sprache, bei der eine Frage durch systematische, vollständige Umkehrung der Wortreihenfolge gebildet wird.
Der Junge ass den Hamburger. * Hamburger den ass Junge der.
Sprache ist die Menge aller Sätze, die ein Sprecher benutzen könnte.
Eine formale Sprache ist eine Menge von Zeichenketten, die aus den Symbolen eines beliebigen Alphabets (= eine endliche Menge von Symbolen) aufgebaut sind. (nach [Hopcroft and Ullman 92]).
Er verteidigt mühsam verdientes Geld.
Hans sieht Peter und Maria Susanne.
Hans schläft lange, weil er ist sehr müde.
Bei der Analyse einer natürlichen Sprache muss festgelegt werden, welche Sätze ein Sprecher dieser Sprache benutzt bzw. benutzen könnte. Dies kann man erreichen, indem man muttersprachliche Sprecher bzgl. ihres Urteils, ihrer Intuition, zu einem gegebenen Satz befragt. Damit erhält man ein Urteil über die Akzeptabilität eines Satzes. Akzeptabilität ist jedoch nicht gleich Grammatikalität.
Ein Satz kann aus verschiedenen Gründen unakzeptabel sein. Z.B. weil er Probleme für die kognitive Verarbeitung bietet.
The man the girl the boy knows likes is here.
Der Mann, der die Frau, die das Kind ruft, beobachtet, steht am Fenster.
Es stellt sich die Frage: Gibt es Sätze, die akzeptabel aber nicht grammatisch sind?
He sees a not unintelligent person.
Chomskys obige Sprachdefinition: Sprache ist die Menge aller Sätze, die ein Sprecher benutzen könnte.
Sprache wird hier bewusst als die abstrakte Summe aller möglichen Äusserungen dargestellt, nicht als die konkrete Summe aller in einem Diskurs tatsächlich vorgefundenen Äusserungen.
Man unterscheidet zwischen der Fähigkeit, alle möglichen Äusserungen aus Regeln zu bilden (Kompetenz, Langue) und den tatsächlich von Anwendern benutzten Äusserungen (Performanz, Parole). Kompetenz wird typischerweise mit Syntaxregeln beschrieben, Performanz ist der Untersuchungsgegenstand der Corpuslinguistik.
Grammatikalität orientiert sich an der sprachlichen Kompetenz. D.h. ein Satz ist dann grammatisch, wenn er isoliert von einem Kontext von den meisten Sprechern als `akzeptabel' eingestuft wird. Demgegenüber gilt ein Satz als akzeptabel, wenn er in einem speziellen Kontext als solcher eingestuft wird. Akzeptabilität orientiert sich an der sprachlichen Performanz.
Peter hofft auf mehr Geld.
Peter hofft Bananen.
im Kontext der Frage:
Was isst Susanne gern?
Syntaxtheorie schöpft aus der Quelle der traditionellen Grammatik, ist jedoch um grössere Präzision bemüht. Zu diesem Zweck wurden innerhalb der Syntaxtheorie verschiedene Grammatiktheorien formuliert, die den formalen Rahmen der Syntax festlegen.
Eine Grammatiktheorie ist ein formales System, das festlegt, wie die Regeln und Prinzipien einer Grammatik für eine natürliche Sprache beschaffen sind. Die Grammatiktheorie ist eine Metagrammatik, da sie die Syntax und Semantik der Grammatikregeln vorschreibt.
Beispiele für Grammatiktheorien sind:
Der Nutzen von Syntaxtheorie liegt in den folgenden Bereichen:
Wir betrachten zunächst Systeme zur Erkennung gesprochener Sprache. Mit Hilfe einer Syntaxanalyse kann ein Computer bei gleicher Lautung eine Unterscheidung zwischen mehr und Meer treffen:
Er isst mehr Fleisch als du.
Er liegt am Meer.
Bei der Generierung gesprochener Sprache muss die unterschiedliche Aussprache gleichgeschriebener Wörter ermittelt werden.
Montage liegt mir nicht.
Montage liegen mir nicht.
Die Auflösung von Mehrdeutigkeiten kann nicht nur einzelne Wörter betreffen, sondern auch die Bezüge innerhalb von Satzgefügen.
Die Mitarbeiterinnen jeder Abteilung, die PCs benutzt, ...
Die Mitarbeiterinnen jeder Abteilung, die PCs benutzen, ...
Schliesslich gibt es Anwendungen, bei denen die Syntaxanalyse zentral ist:
Ohne die Annahme einer inneren Struktur von Sätzen ist es unmöglich, Aussagen darüber zu machen, welche Sätze in einer Sprache möglich sind und welche nicht.
Der Mann war zornig über den Hund.
Diesen Satz könnte man analysieren als Kette bestehend aus: Artikel, Nomen, Verb, Adjektiv, Präposition, Artikel und Nomen. Diese Analyse würde aber viele Generalisierungen nicht ausdrücken. Z.B. würde sie nicht ausdrücken, dass die Verbindung zwischen der und Mann stärker ist als zwischen Mann und war.
Zudem könnte sie die enge Verwandschaft zum Satz
Der grosse Mann ist zornig gewesen über den Hund.,der aus der Wortkette Artikel, Adjektiv, Nomen, Verb, Adjektiv, Partizip, Präposition, Artikel und Nomen besthet, nicht erkennen.
Deshalb werden Verfahren des Distributionalismus eingesetzt, um grössere Einheiten, sog. Konstituenten, zu ermitteln. Dazu gehören: (vgl. hierzu [Duden 95] S. 600 ff)
Allgemeine Variante: Ersetzen einer Wortkette durch eine andere Wortkette. Annahme: Bleibt der Satz unter Ersetzung grammatisch, so sind die Wortketten vom gleichen Typ.
Spezielle Variante: Ersetzen einer Wortkette durch ein Pronomen. Annahme: Alles, was durch ein Pronomen ersetzt werden kann, ist eine syntaktische Einheit.
Peter sucht essbare Pilze. Peter sucht sie. * Peter sucht essbare sie.
Verschieben einer Wortkette im Satz unter Beibehaltung der Grammatikalität und des Wahrheitswertes. Zu den Verschiebemöglichkeiten gehören im Deutschen: Inversion, Passivierung.
Peter sucht essbare Pilze. Essbare Pilze sucht Peter. Essbare Pilze wurden von Peter gesucht. * Essbare sucht Peter Pilze.
Zu den Verschiebemöglichkeiten gehören im Englischen: cleft-Bildung, Passivierung und Topikalisierung.
Stefan painted a picture of Maja. Cleft: It was a picture of Maja that Stefan painted. Passive: A picture of Maja was painted by Stefan. Topicalization: A picture of Maja Stefan painted.
Koordination zweier Wortketten. Annahme: Nur Wortketten des gleichen Typs können koordiniert werden.
Peter sucht essbare Pilze und kleine Walderdbeeren. Peter sucht im Unterholz und am Waldrand. * Peter sucht essbare Pilze und am Waldrand.
Schrittweises Weglassen einzelner Worte. Annahme: Die Bestandteile einer Konstituente müssen gemeinsam eliminiert werden.
Peter sucht essbare Pilze am Waldrand. * Peter sucht essbare Pilze am. Peter sucht essbare Pilze.
Die folgenden Konstituenten werden dadurch für das Englische postuliert:
Det + N Eigenname Det + AdjP + N NP Conj NP
Verb Verb + NP Verb + NP + PP
Prep + NP PP Conj PP
Adj Adv + Adj Adj + PP
Syntaxstrukturen werden als geschachtelte Listen oder als Bäume repräsentiert. Diese Darstellungen sind isomorph.
[Der Mann] [war zornig [über [den Hund]]].
Bei der Baumdarstellung werden oft nicht-interessierende Detailinformationen weggelassen und mit einem Dreieck symbolisiert. Wichtige Terminologie:
Für Syntaxbäume gelten zwei wichtige Restriktionen:
Diese Restriktionen erleichtern die automatische Verarbeitung und Darstellung, aber sie erschweren die Analyse von Sätzen mit diskontinuierlichen Elementen (z.B. abgetrennten Verbpräfixen) und doppelter Funktion (z.B. doppelte Subjektfunktion bei Infinitivkonstruktionen):
Er stellt sich gern dar.
Er versucht, Gabi zu helfen.
Bei genauer Untersuchung der Konstituentenstruktur zeigt sich, dass nicht nur lexikalische Kategorien (N, V, Adj, Prep) und phrasale Konstituenten (NP, VP, PP, AdjP) erforderlich sind, sondern auch noch Zwischenebenen.
die alten weisen Frauen und greisen Männer
Dieser Satzteil lässt sich nicht nur mit NPs und N analysieren, da greisen Männer keine eigenständige NP sein kann. Deshalb postuliert man eine Zwischenebene N' mit:
[NP die [N' alten weisen Frauen] und [N' greisen Männer]]
Mit analogen Argumenten postuliert man ebenfalls V', P' und A'. In alternativer Notation wird ein Querstrich (engl. bar) über das jeweilige Kategoriesymbol gezogen. Eine Kategorie, die mit einer Konstituente der Zwischenebene eine Konstituente der phrasalen Ebene bildet, nennt man Spezifikator (engl. specifier).
Der bekannteste Typus syntaktischer Regeln sind die Phrasenstrukturregeln (PS-Regeln). Sie legen fest, was in einer Sprache möglich bzw. nicht möglich ist. Eine PS-Regel hat die Form:
A --> B1 ... Bn
wobei A ein Konstituentensymbol der Grammatik ist und alle Bi sind entweder Konstituentensymbol (z.B. NP, AdjP, PP), Kategoriesymbol (z.B. N, Adj, V) oder Lexem (z.B. er, gegangen, Haus). Die Regel kann gedeutet werden als Verzweigung in einem lokalen Baum oder auch als Bedingung über einem lokalen Baum. Ein lokaler Baum ist ein Baum der Tiefe 1, oder, anders gesagt, ein Baum, in dem es nur einen Mutterknoten gibt, der gleichzeitig die Wurzel ist.
Entscheidend bei der Verwendung von PS-Regeln ist die Rekursivität. Rekursive Regeln erlauben die Beschreibung einer unendlichen Anzahl von Sätzen mit endlichen Mitteln.
Merke: In neueren Arbeiten zur Syntaxtheorie wird argumentiert, dass PS-Regeln nicht notwendigerweise Bestandteil einer Grammatik sein müssen (s. z.B. HPSG in [Pollard and Sag 94]).
Das erste Ziel bei der Anwendung von PS-Regeln ist die Beschreibung genau der Satzstrukturen einer natürlichen Sprache. Die Beschränkung auf genau die vorkommenden Satzstrukturen ist wichtig, da man sonst Regeln der folgenden Form aufstellen könnte:
Satz --> Wort Satz Satz --> Wort
Hat man alle Wörter der Sprache erfasst, so lassen sich mit diesen beiden Regeln alle Sätze bilden. Jedoch ist der Erklärungswert dieser Art von Regeln gleich null.
Ein zweites Ziel ist die möglichst einfache Beschreibung der Satzstrukturen. Gesucht wird also eine möglichst kleine Zahl möglichst kompakter und ausdrucksstarker Regeln. Wenn, beispielsweise, in einer Sprache das direkte Objekt immer vor dem indirekten Objekt steht, so möchte man diesen Tatbestand nur einmal in der Grammatik formulieren und nicht in vielen Regeln wiederholen.
Ein drittes Ziel besteht darin, Regeln zu finden, die sich möglichst leicht auf andere Sprachen übertragen lassen.
Um Generalisierungen ausdrücken zu können, die in PS-Regeln nur implizit enthalten sind, trennt man in neueren Grammatiktheorien zwischen Dominanz- und Präzedenzregeln. Dominanzregeln (ID-Regeln für engl. immediate dominance) bestimmen lediglich die Dominanzbeziehung zwischen Mutterknoten und Tochterknoten. Die Reihenfolge der Geschwisterknoten wird dabei offengelassen. Erst durch den Einsatz von Präzedenzregeln (LP-Regeln für engl. linear precedence) werden Abfolgerestriktionen zwischen Geschwisterknoten festgelegt.
Dominanzregeln werden ähnlich notiert wie PS-Regeln mit dem Unterschied, dass die Elemente der rechten Regelseite durch Kommas getrennt werden.
A --> B1, B2, ..., Bn
Präzedenzregeln werden notiert als:
A < B
mit der Bedeutung, dass A vor B stehen muss, wenn beide als Geschwister auftreten.
Es gilt dann: Ein lokaler Baum ist wohlgeformt genau dann, wenn er den Dominanzbedingungen einer ID-Regel und den Präzedenzbedingungen aller relevanten LP-Regeln genügt.
Merke: ID- und LP-Regeln können nur dann eingesetzt werden, wenn die Geschwisterreihenfolge unabhängig vom Mutterknoten ist.
Sowohl PS-Regeln als auch ID/LP-Regeln sind in ihrer Reichweite eingeschränkt auf lokale Bäume. Ihr Einsatz wird deshalb problematisch, wenn Phänomene weiter verteilt sind. Beispiele sind diskontinuierliche Elemente:
Stefan scratched himself.
Who did John believe Mary saw?
Stefan stellt uns seinen Freund aus Kindertagen, den er 15 Jahre nicht gesehen hatte, vor.
Diese Probleme versucht man in modernen Grammatiktheorien durch den Transport syntaktischer Merkmale im Syntaxbaum in den Griff zu bekommen.
In modernen Grammatiktheorien (wie z.B. GPSG, HPSG) sind syntaktische Kategorien nicht atomare Einheiten sondern komplexe Strukturen, die aus kleineren Elementen, syntaktischen Merkmalen (engl. features), zusammengesetzt sind. Beispielsweise will man zum Wort Mann nicht nur vermerken, dass es sich um ein Nomen handelt, sondern auch, dass diese Form u.a. Nominativ Singular ist und dass es sich um ein Nomen mit maskulinem Genus handelt.
`Mann' --> N[Kasus=Nom, Numerus=Sg, Genus=Mask]
Auf die gleiche Art müssen Verbformen mit Angaben bzgl. Numerus, Person, Tempus und Adjektive mit Angaben bzgl. Kasus, Numerus, Genus und Deklination versehen werden.
Weitere Indizien für die Behauptung, dass Kategorien komplexe Strukturen sind, erhält man aus der Beobachtung, dass phrasale Kategorien Projektionen lexikalischer Kategorien sind (X-Bar Theorie). Das heisst, eine Kategorie XP enthält als Tochterknoten normalerweise eine Kategorie X', die wiederum eine Tochter X' oder X hat, wobei X für A, N, P oder V steht. Wenn also NP, N' und N nominalen Charakter haben, sollte das implizit kodiert werden. Das macht man üblicherweise, indem man ein Merkmal `Bar' einführt, das die Ebene angibt. Also:
[Nominal=+, Bar=0] N [Nominal=+, Bar=1] N' [Nominal=+, Bar=2] NP
Merke: Phrasale Kategorien werden auch als maximale Projektionen bezeichnet.
Die Eigenschaften nominal und verbal werden als elementar angesehen und dienen zur Definition der Basiskategorien:
| +nominal -nominal ----------|--------------------- +verbal | Adjektiv Verb -verbal | Nomen Präposition
Durch diese Definition wird ein höherer Abstraktionsgrad erreicht, der allgemeinere Aussagen zulässt. Damit entspricht jetzt einer Akkusativ-NP die folgende Merkmalstruktur:
[Nominal=+, Verbal=-, Bar=2, Kasus=Akk]
Syntaktische Kategorien sind also nichts anderes als Mengen syntaktischer Merkmale, genauer: Merkmal-Wert Paare. Diese nennt man Merkmalstrukturen. Jedoch gelten einige zusätzliche Bedingungen. Ein Merkmal in einer Merkmalstruktur kann als Wert erhalten:
Merke: Im folgenden verwenden wir aus Gründen der Schreibvereinfachung NP, VP, AdjP und PP und meinen damit die komplexen Merkmalstrukturen mit den Merkmalen: nominal, verbal, bar.
Um Regeln anwenden zu können, die komplexe Merkmalstrukturen enthalten, brauchen wir eine Operation, die festlegt, wann zwei Merkmalstrukturen "zusammenpassen". Diese Operation heisst Unifikation. Sie entspricht intuitiv einer Verträglichkeitsprüfung zwischen zwei Merkmalstrukturen und führt im positiven Fall zu einer Vereinigung der Merkmalstrukturen zu einer neuen Merkmalstruktur.
Die Unifikation wird oft über die Subsumptionsrelation eingeführt: Eine Merkmalstruktur X subsumiert eine Merkmalstruktur Y genau dann, wenn Y alle Merkmal-Wert Paare von X enthält (und vielleicht noch andere).
Wenn zwei Merkmalstrukturen X und Y in einer Subsumptionsrelation zueinander stehen, können sie immer unifiziert werden. Das Ergebnis ist dann gleich der informationsreicheren Merkmalstruktur. Sie können aber auch dann unifiziert werden, wenn sie nicht in einer Subsumptionsrelation stehen, ihre Inhalte aber kompatibel sind. Genaueres dazu in der Vorlesung zu den Grundlagen der Merkmallogik.