9.2.  Spracherkennung

Spracherkennungssysteme 

Definition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem akustischen Signal von gesprochener Sprache eine textuelle Darstellung.

Definition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.

Spracherkennung ist schwieriger als Sprachsynthese. Warum?

Typische Architektur 
Vom Sprachsignal zur Wortfolge

  1. Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals: Merkmalsextraktion)
  2. Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen
  3. Lexikalische Analyse : Erkennen von Wortkandidaten
  4. Syntaktische Analyse : Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche
  5. Semantische Analyse : Filtern auf wahrscheinliche (anwendungsspezifische) Bedeutungen

9.2.1.  Probleme

Wortübergänge (Junkturen) 
Wortgrenzen werden eher selten als Sprechpausen realisiert.

Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale.

Definition 9.2.3. Die Koartikulation ist die Beeinflussung der lautlichen Form eines Phonems durch seine Umgebung.

Beispiel 9.2.4 (Assimilation).

Wortübergänge (Junkturen) 

Beispiel 9.2.5 (Epenthese und Auslassung).

Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)).

Weitere Störfaktoren 

9.2.2.  Worthypothesengraph

Worthypothesengraph 
In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert.


pict

Abbildung 9.5: Worthypothesengraph aus [CARSTENSEN et al. 2004, 580]


Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrscheinlichsten Pfad auswählen.

9.2.3.  Wortfehlerrate

Wortfehlerrate (word error rate, WER) 

Definition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder eingefügt (INS) werden.


pict

Abbildung 9.6: Berechnung der Wortfehlerrate aus [CARSTENSEN et al. 2004, 581]

Definition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern).

W ER  = 100 × NSUB--+-NINS--+-NDEL--
                        N