13.4.  Formale Sprachen und Regel-Grammatiken

13.4.1.  Sprache als Menge

Das Alphabet (Sigma), Zeichen und Zeichenketten

Definition 13.4.1. Ein Alphabet ist eine endliche Menge von Zeichen (atomare Symbole). Es wird mit Σ (Sigma) notiert.

Definition 13.4.2. Eine Zeichenkette (Wort, string) von n Zeichen aus Σ ist eine endliche Folge der Länge n über Σ.

Die leere Zeichenkette (leeres Wort) ist die Folge von 0 Zeichen. Sie wird mit ε (Epsilon) notiert und hat die Länge 0.

Hinweis zur Notation

Eine Zeichenkette wird typischerweise durch Nebeneinanderschreiben (Juxtaposition) der Zeichen von links nach rechts notiert.

Sei Σ = {a,b}, dann sind etwa ε, a, bb oder ababbba Wörter über Σ.

Stern von Sigma und formale Sprachen

Definition 13.4.3. Der Stern von Sigma ist die Menge aller Wörter über einem Alphabet Σ. Der Stern wird als Postfix-Operator Σ (sprich «Sigma Stern») notiert.

Definition 13.4.4. Eine formale Sprache L über Σ ist eine Teilmenge des Sterns von Sigma.

L ⊆ Σ∗

Beispiel 13.4.5. Sei Σ = {a}, dann ist Σ = {ε,a,aa,aaa,}. Die Mengen L1 = {ε,a} oder L2 = {aa,aaaa,aaaaaa} sind formale Sprachen, da sie (echte) Teilmengen von Σ sind.

Leere Sprachen vs. leere Zeichenkette

Hinweise

Fragen

13.4.2.  Konkatenation

Konkatenation von Zeichenketten

Definition 13.4.6. Die Konkatenation von Zeichenketten ist eine zweistellige Funktion, welche ihre Argumente zu einem Wort verkettet. Für alle u,v Σ:

∙ : Σ∗ × Σ∗ → Σ ∗, u∙ v = uv

Eigenschaften der Konkatenation

Die Konkatenation ist assoziativ und hat ε als neutrales Element . Für alle u,v,w Σ:

u ∙(v ∙w ) = (u ∙v) ∙w,  ε∙ u = u,  u∙ ε = u

Potenznotation der Konkatenation

Definition 13.4.7. Die n-fache Konkatenation einer Zeichenkette w mit sich selbst in der Potenznotation sei rekursiv definiert. Für n 1,n :

w0  =   ε
wn  =   w ∙wn −1

Beispiel 13.4.8 (Potenznotation der Verkettung).
Die Zeichenkette aaabbcccc kann als a3b2c4 notiert werden.

buffalo6

Beispiel 13.4.9 (Ein syntaktisch korrekter englischer Satz).
“Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo.”

Analyse


pict


13.4.3.  Grammatiken

Chomsky-Hierarchie [HOPCROFT et al. 2002]


pict

Abbildung 13.2: Teilmengenbeziehungen der Sprachklassen von Chomsky




Sprachklasse Typ Beispiel






regulär 3 {an}
kontextfrei 2 {anbn}
kontextsensitiv 1 {anbncn}
allgemein 0



mit n 1

Echte Teilmengen

Für alle Typ–i–Sprachen mit 0 i 2 gilt: Li+1 Li .

Wo befinden sich natürliche Sprachen? [HESS 2005, 138ff.]

Mindestens Typ 2: NPnVPn (central embedding)

      -----------------------------------------------  
     |          ----------------------------         |  
     |         |            --------        |        |  
     |         |           |        |       |        |  
The man whose wife whose child is angry is sad is surprised

Mindestens Typ 1 nach [SHIEBER 1985] (cross serial construction)

                              ------------------  
                             |                  |  
                        ------------------      |  
                       |     |            |     |  
                --------------------      |     |  
               |       |     |      |     |     |  
mer wänd   d’Chind am Hans s’Huus  laa  hälfe aaschtriiche

Regel-Grammatiken

Kontextfreie Grammatiken

Beispiel 13.4.10 (Kontextfreie Grammatik).

Ableiten von Sätzen

Definition 13.4.11 (Direkte Ableitungsrelation). Die direkte Ableitungsrelation ⇒ ⊆ Γ× Γ einer Grammatik ist die Menge aller Paare u,vmit u,v,w,z Γ, für die gilt:

Definition 13.4.12 (Ableitung (derivation)). Eine Ableitung ist ein n-Tupel w1,,wnvon Zeichenketten wi Γ mit (1 i n) , so dass gilt:

Normale Schreibweise für Ableitungen

w1 wn

Beispiel: Ableitung mit kontextfreier Grammatik


pict






Ableitung u Regel v




u1wu2 w z u1zu2








S ε S ε S NP VP ε NP VP ε
NP VP ε NP VP NP EN ε EN VP
EN VP EN VP ε VP V NP EN V NP ε
EN V NP EN V NP V EN aß NP
EN aß NP EN aß NP ε NP D N EN aß D N ε
EN aß D N EN aß D N D den EN aß den N
EN aß den N EN aß den N ε N Pudel EN aß den Pudel ε
EN aß den Pudel ε EN aß den Pudel EN Egon ε Egon aß den Pudel
Egon aß den Pudel

Satzformen, Sätze und Sprachen

Definition 13.4.13 (Ableitungsrelation (derivation relation)). Die Ableitungsrelation ∗
⇒ ist die reflexiv-transitive Hülle von .

Definition 13.4.14 (Satz). Ein Satz a einer Grammatik G = Φ,Σ,R,Sist eine Zeichenkette aus Terminalsymbolen a Σ, so dass gilt:

S +⇒  a

Definition 13.4.15 (Sprache einer Grammatik G). Die Sprache LG einer Grammatik G = Φ,Σ,R,Sist die Menge aller ihrer Sätze a Σ.

             +
LG  = { a | S ⇒ a }

Grammatik-Regeln, Sprachklassen und Automaten
Die verschiedenen Grammatiktypen unterscheiden sich hinsichtlich der Bedingungen, die an die Regelmenge R gestellt werden. Es seien A,B Φ,w Σ und α,β,γ Σ).





Sprachklasse
Form der Grammatikregeln
Automatentyp








Regulär A w Endlicher Automat
(Typ 3) A wB oder A Bw




Kontextfrei A α Kellerautomat
(Typ 2)




Kontext- αAγ αβγ mit βε oder
sensitiv S ε (dann darf S nicht Linear
(Typ 1) auf einer rechten Seite beschränkter
einer Regel vorkommen) Automat (LBA)




(Typ 0) α β (mit αε und α ⁄∈ Σ) Turingmaschine