Einführung in HPSG

Dozent: Gerold Schneider

Übersicht

HPSG steht für Head-driven Phrase Structure Grammar. Trotz dieses Namens spielt die Phrasenstruktur eine untergeordnete Rolle in dieser Theorie. Ein besserer Name wäre Head-driven constraint-based grammar. HPSG wurde zuerst beschrieben in [Pollard and Sag 87], dann grundlegend überarbeitet und neu beschrieben in [Pollard and Sag 94].

Ein englisches Einführungswerk in HPSG ist übers Netz erhältlich: [Sag and Wasow 97]

Eine ausführliche (~380 Seiten!) Einführung in HPSG für das Deutsche stellt das Buch von Stefan Müller dar. Man kann auch Stefans HPSG Parser online ausprobieren.

Eine weitere wichtige Quelle: Die HPSG-Seite in Stanford.


Bereits eingeführte Fakten über HPSG

Die Grundannahmen von HPSG

In English: HPSG - Some leading ideas.


Die folgende Übersicht orientiert sich vor allem an [Brown 96] (S.191-196).

Bestandteile der HPSG-Theorie

Das grundlegende Konzept in HPSG ist die mathematisch-formale Modellierung linguistischer Einheiten. Die Theorie besteht aus Aussagen in einer formalen Sprache. HPSG besteht aus:

  1. Grammatik-Prinzipien
  2. Grammatik-Regeln
  3. Lexikon-Einträgen

Jede wohlgeformte Konstituente wird durch eine Merkmalstruktur beschrieben, und diese Merkmalstruktur muss von jedem Grammatik-Prinzip und zusätzlich von einer Grammatik-Regel oder einem Lexikon-Eintrag subsumiert werden. Die Grammatik-Prinzipien sind universell (d.h. sie gelten für alle Sprachen), ausser wenn sie explizit als sprach-spezifisch (engl. parochial) deklariert sind.

Das HPSG Zeichen 'sign'

HPSG verwendet getypte Merkmalsstrukturen.

Jede Konstituente, die durch eine HPSG-Grammatik zugelassen wird, ist eine Merkmalstruktur vom Typ 'sign'. Eine solche Merkmalstruktur enthält mindestens die Merkmale PHON und SYNSEM. Merkmalstrukturen, die Phrasen beschreiben, müssen ausserdem das Merkmal DTRS (daughters) enthalten, das unterteilt wird in HEAD-DTR und COMP-DTRS (complement daughters; eine Liste von Merkmalstrukturen, wo jedes Element ein Komplement beschreibt). Eine Phrase enthält somit immer eine Beschreibung aller Teile.

Die grundlegende Struktur eines Zeichens (nach [Müller 97] S. 22): Allgemeine AVM

Syntaktische Kategorien in HPSG

Syntaktische Kategorien in HPSG sind komplex. In einer regulären Sprache muss die VP in den Sätzen

(1) The girl sings the song.
(2) The girl sings the songs.
(3) The girls sing the song.
(4) The girls sing the songs.

durch vier verschiedene PS-Regeln beschrieben werden:

VP_sg --> V_sg NP_sg
VP_sg --> V_sg NP_pl
VP_pl --> V_pl NP_sg
VP_pl --> V_pl NP_pl

Wie in kontextfreien Sprachen durch die Verwendung von Argumenten, z.B. v(sg), lässt eine Explosion an Gramatikregeln verhindern [Borsley 97] ( Kapitel 3.3). Auch Wortkategorien werden in HPSG als Merkmal behandelt (CAT), so dass wortklassenübergreifende Verallgemeinerungen möglich sind. Das folgende X-bar-Regelschema besagt beispielsweise, dass ein lexikalischer Kopf (bar-level 0) zusammen mit einem von ihm geforderten Komplement (erstes Element der Subkategorisierungsliste) eine phrasale Konstituente derselben Kategorie auf Bar-Level 1 bilden soll.

[CAT:X, BAR:1,SUBCAT:REST] --> [CAT:X, BAR:0,SUBCAT:[Y|REST]], CAT:Y]

In X-bar wurde dieses Regelschema informeller als

X' --> X, (Komplemente)

ausgedrückt. GB hat heute die X-bar-Theorie aufgegeben, denn

[CAT:X, SUBCAT:REST] --> [CAT:X, SUBCAT:[Y|REST]], CAT:Y]

So wie LFG eine funktionale Struktur mit komplexen Merkmal-Wert-Paaren aufbaut, baut HPSG eine sowohl syntaktische als auch funktionale (SYN-SEM) Struktur mit komplexen getypten Merkmal-Wert-Paaren auf. Der Konstituentenaufbau (LFG c-Struktur) wird in die Merkmalsstruktur aufgenommen (so dass die Merkmalsstruktur einen ganzen Satzbaum enthalten kann). Das Merkmal Daughters (DTRS) enthält die Tochterknoten:

-                                         -
| SYNSEM [CAT:X], SUBCAT:REST             |
| DTRS [SYNSEM [CAT:X, SUBCAT:[Y|REST]],  | 
|       SYNSEM [CAT:Y]                 ]  |
-                                         -

Gewisse Töchter sind Köpfe (X hier), andere nicht (Y hier). Deshalb unterscheidet HPSG zwischen Kopftöchtern (HEAD-DTR) und anderen (z.B. COMP-DTRS) ([Borsley 97] ( Kapitel 4.5)). Die Kategorie der Kopftochter muss mit der des Kopfes übereinstimmen:

-                                                    -
| SYNSEM [CAT:X], SUBCAT:REST                        |
| DTRS [HEAD-DTR [SYNSEM [CAT:X, SUBCAT:[Y|REST]]],  | 
|       COMP-DTRS[SYNSEM [CAT:Y]                 ]]  |
-                                                    -

Nicht nur die Wortkategorie (CAT), sondern andere Informationen werden zwischen Kopf und Kopftochter geteilt. Deshalb verwendet HPSG ein komplexes Merkmal HEAD ( Borsley 97] (Kapitel 3.4)), das die Informationen umfasst, die ein Kopf und seine Kopftochter gemeinsam haben. Zu diesen Informationen gehört:

In HPSG wird Identität jeweils durch Koreferenz ([1] hier) ausgedrückt. Komplexe Klammerungen werden häufig notationell durch Pfade ersetzt, also A | B | C statt [A [B [C]]] und Listen werden in eckige Klammern gesetzt, also <erstes, zweites, drittes>:

_                                                                      _
| SYNSEM | LOC | CAT | HEAD  [1], SUBCAT  <REST>                       |
| DTRS [ HEAD-DTR | SYNSEM | LOC | CAT | HEAD  [1], SUBCAT <[2]|REST>, |
|        COMP-DTRS [2]                                               ] |
-                                                                      -

Wenden wir uns zuerst der Tatsache zu, dass Kopf und Kopftochter Merkmale gemeinsam haben, wie im Head-Feature Prinzip ausgesagt wird. Anschliessend wenden wir uns der Behandlung der Subkategorisierung in HPSG zu.

Das Head-Feature Prinzip

Die Bedingung, dass Mutterknoten und Head-Tochter in den Head-Merkmalen übereinstimmen, wird durch das Head-Feature-Prinzip ( [Borsley 97] ( Kapitel 4.3)) erreicht. Es gilt in HPSG als allgemeines Grammatik-Prinzip:

_                        _
| DTRS  headed-structure[]   |    ==>
-                        -
_                                                    _
| SYNSEM | LOC | CAT | HEAD  [1]                     |
| DTRS | HEAD-DTR | SYNSEM | LOC | CAT | HEAD  [1]   |
-                                                    -
 

In Worten: Jede Merkmalstruktur, in der das Merkmal DTRS vorkommt und zwar mit einer Merkmalstruktur vom Typ headed-structure als Wert, muss mit der Konsequenz dieser Implikation unifiziert werden. Die Konsequenz besagt mit Hilfe von Koreferenz-Symbolen, dass das HEAD-Merkmal (der Mutter) und das HEAD-Merkmal der Head-Tochter (HEAD-DTR) referenz-identisch sein müssen.

In LFG wird dasselbe mit der Annotierung ^=v beim Kopfkonstituenten in der PSG ausgesagt.

Subkategorisierung

Das SUBCAT-Merkmal enthält die Liste der fehlenden Valenzpartner einer Konstituente. Eine Merkmalstruktur, deren SUBCAT-Liste leer ist, hat keine Valenzforderungen. Das Subjekt ist genauso Bestandteil der SUBCAT-Liste wie etwaige Objekte. Die Elemente der SUBCAT-Liste sind geordnet nach dem Grad ihrer Wichtigkeit (engl. obliqueness). Das wichtigste Element (typischerweise das Subjekt) steht zuerst.

Das Subkategorisierungs-Prinzip sorgt dafür, das die SUBCAT-Liste 'abgearbeitet' wird.

_                        _
| DTRS  headed-structure[]   |    ==>
-                        -
_                                                                  _ 
| SYNSEM | LOC | CAT | SUBCAT  [2]                                 |
|      _                                                         _ |
| DTRS | HEAD-DTR | SYNSEM | LOC | CAT | SUBCAT  append([1],[2]) | |
|      | COMP-DTRS [1]                                           | |
|      -                                                         - |
-                                                                  -
 

In Worten: Die Subkategorisierungs-Anforderungen einer Phrase sind diejenigen der Head-Tochter abzüglich der bereits von den Komplement-Töchtern erfüllten Anforderungen. Das Subkategorisierungs-Prinzip ist ein weiteres Grammatik-Prinzip, das für alle Merkmalstrukturen gelten muss.

In späteren Versionen der HPSG (ab [Pollard and Sag 94] Kapitel 9) wird das Subjekt separat behandelt, was aber am Prinzip nichts ändert (siehe Kongruenz in HPSG).

Grammatikregeln in HPSG

Obwohl HPSG eine Phrasenstruktur-Grammatiktheorie ist, gibt es keine 'echten' Phrasenstruktur-Regeln. Da die Phrasenstruktur innerhalb einer Merkmalstruktur über das DTRS-Merkmal beschrieben wird, sind Grammatikregeln Bedingungen über die Wohlgeformtheit von Merkmalstrukturen. Da die meisten Informationen im Lexikon spezifiert sind, braucht man nur sehr wenige, allgemeine Grammatikregeln. Da ausserdem die Reihenfolge-Bedingungen wie in GPSG separat behandelt werden, nennt man die Grammatikregeln auch 'ID-Schemata' (oder einfach Dominanz-Schemata). Ein Beispiel:

(alte Version des Head-Subject-Schemas, 
bis [Pollard and Sag 94] Kapitel 9)
_                                                   _ 
| SYNSEM | LOC | CAT | SUBCAT  < >                  |
|      _                                          _ |
| DTRS | HEAD-DTR | SYNSEM | LOC | CAT | LEX  -   | |
|      | COMP-DTRS <[ ]>                          | |
|      -                                          - |
-                                                   -
 

Diese Regel entspricht dem, was man üblicherweise beschreibt durch:

S  -> NP  VP
NP -> Det  N1
NP -> NP[Genitiv]  N1
 

Die Regel sagt, dass eine vollständige Phrase (eine Merkmalstruktur mit leerer SUBCAT-Liste), aus einem nicht-lexikalischen Head und einem einzelnen Komplement (<[ ]> = Liste mit genau einem Element) bestehen kann.

Ein zweites Beispiel:

(Head-Complement-Schema)
_                                                         _ 
| SYNSEM | LOC | CAT | SUBCAT  <[ ]>                      |
|                                      _                _ |
| DTRS | HEAD-DTR | SYNSEM | LOC | CAT | LEX  +         | |
|                                      | HEAD | INV  -  | |
|                                      -                - |
-                                                         -
 

Diese Regel entspricht u.a.:

V1  -> V  NP 
N1 ->  AdjP N
 

Die Regel sagt, dass eine Phrase, der noch genau ein Komplement fehlt (also z.B. V1 oder N1), aus einem lexikalischen Head (und hier nicht weiter spezifizierten Komplementen) bestehen kann, wenn die HEAD-Tochter nicht invertiert ist.

Kongruenz in HPSG

Subjekt-Verb Kongruenz

Bis [Pollard and Sag 94] Kapitel 9 wird das Subjekt als vorderstes Element in der Subkat-Liste geführt. Später erhält es eine eigene Subkategorisierung. [Borsley 97] ( Kapitel 6.2) nennt die alte Version das SUBCAT framework und die neue Version das SUBJ-COMPS framework. Je nach HPSG-Version gibt es in letzterer zwei oder drei Subkat-Listen:

Subjekt-Verb Kongruenz lässt sich mithilfe von Koindexierung in einer PSG sicherstellen ( [Sag and Wasow 97] p. 70). Das komplexe Merkmal AGR enthält dabei die Merkmale Numerus NUM und Person PER.

      -               -  -               -
      |phrase         |  |phrase         |
      |     -        -|  |     -        -|
S --> |HEAD |noun    ||  |HEAD |verb    ||
      |     |AGR [1] ||  |     |AGR [1] ||
      |     -        -|  |     -        -|
      -               -  -               -

HPSG wählt jedoch typischerweise eine lexikalistische Version der Subjekt-Verb Kongruenz. Die Verbeinträge im Lexikon subkategorisieren direkt für die gewünschte Person PER und Numerus NUM des Subjekts ( [Sag and Wasow 97] Kapitel 4.6).

Partieller Lexikoneintrag für 'walks':
 
       -                                    -
       |verb                                |
       |HEAD verb                           |
       |     -                            - |
       |     |     -                     -| |
       |     |HEAD |noun                 || |
<walks,|SPR <|     |AGR [NUM sg, PER 3rd]||>|>
       |     |     -                     -| |
       |     -                            - |
       -                                    -

Somit wird Subjekt-Verb Kongruenz zu einem lexikalischen Prozess in HPSG. Die entsprechenden Lexikoneinträge werden von einer lexikalischen Regel für alle Verben produziert.

Nomen-Artikel Kongruenz

Ebenso gibt es eine lexikalische Regel, die sicherstellt, dass alle Nomen mit deren Artikel kongruieren, also folgenden Teil des Lexikoneintrags eines Nomens erstellt ( [Sag and Wasow 97] Kapitel 4.7):

-               -
|noun           |
|HEAD [AGR [1]] |                         
|SPR <[AGR [1]]>|
-               -


Martin Volk <volk@ifi.unizh.ch>, Gerold Schneider <gschneid@ifi.unizh.ch>
Date of last modification: December 14, 1999
URL dieser Seite: http://www.ifi.unizh.ch/CL/gschneid/SyntaxVorlesung/Vorl9.HPSG_I.html