Spracherkennung

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

9.2
Spracherkennung

Spracherkennungssysteme

Deﬁnition 9.2.1 (Speech Recognition System). Ein Spracherkennungssystem erzeugt aus dem akustischen Signal von gesprochener Sprache eine textuelle Darstellung.

Deﬁnition 9.2.2 (Speech Understanding System). Ein Sprachverarbeitungssystem berechnet aus dem akustischen Signal von gesprochener Sprache eine (partielle) Bedeutung.

Spracherkennung ist schwieriger als Sprachsynthese. Warum?

Typische Architektur
Vom Sprachsignal zur Wortfolge

Digitale Signalanalyse (inklusive Erkennung der wesentlichen Eigenschaften des Signals: Merkmalsextraktion)
Matching der extrahierten Merkmale auf die phonologischen Sprachbestandteile (Phoneme, Diphone, Silben), mit denen sich die Wörter zusammensetzen
Lexikalische Analyse : Erkennen von Wortkandidaten
Syntaktische Analyse : Filtern auf wahrscheinliche Wortfolgen bzw. syntaktische mögliche
Semantische Analyse : Filtern auf wahrscheinliche (anwendungsspeziﬁsche) Bedeutungen

9.2.1
Probleme

Wortübergänge (Junkturen)
Wortgrenzen werden eher selten als Sprechpausen realisiert.

Im Deutschen tendenziell durch die Erstbetonung. Im Englischen manchmal durch leichte Verlängerung beginnender Konsonanten oder Betonung endender Vokale.

Deﬁnition 9.2.3. Die Koartikulation ist die Beeinﬂussung der lautlichen Form eines Phonems durch seine Umgebung.

Beispiel 9.2.4 (Assimilation).

this year → this $∫$ ear
the old man $→$ thiold man

Wortübergänge (Junkturen)

Beispiel 9.2.5 (Epenthese und Auslassung).

China is $→$ Chinaris
best buy $→$ besbuy

Beispiel 9.2.6 (Fehlsegmentierungen (Oronym)).

night-rate $↔$ nitrate ; grey day $↔$ grade A; why choose $↔$ white shoes
The sad poet remembers a long ago time $↔$ Thus add poetry members along a goat I’m

Weitere Störfaktoren

Unbekannte Wörter , u.a. zu kleines Lexikon
Hintergrundsgeräusche
Schlechte Mikrophone
Sprecherspeziﬁsche Eigenheiten : schnelles oder undeutliches Artikulieren, dialektale Färbung
Wenig kollaborative Kommunikation : Im Gegensatz zur menschlichen Kommunikation weiss ein Spracherkennungssystem selten, worum es geht.

9.2.2
Worthypothesengraph

Worthypothesengraph
In einem Wortkandidatengraphen werden kompakt alle möglichen Folgen von Wörtern repräsentiert.

pict

Abbildung 9.5:

Worthypothesengraph aus [Carstensen et al. 2004, 580]

Das Spracherkennungssystem sollte den in der Kommunikationssituation am wahrscheinlichsten Pfad auswählen.

9.2.3
Wortfehlerrate

Wortfehlerrate (word error rate, WER)

Deﬁnition 9.2.7 (Editierdistanz). Unter der minimalen Editierdistanz zweier Wortfolgen versteht man die minimale Anzahl der notwendigen Editieroperationen, um die Folgen gleich zu machen. Bei der Levenshtein-Editierdistanz können Wörter gelöscht (DEL), ersetzt (SUB) oder eingefügt (INS) werden.

pict

Abbildung 9.6:

Berechnung der Wortfehlerrate aus [Carstensen et al. 2004, 581]

Deﬁnition 9.2.8 (Wortfehlerrate für eine Folge von n Wörtern).

W ER = 100 × NSUB--+-NINS--+-NDEL-- N

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

9.2 Spracherkennung

9.2.1 Probleme

9.2.2 Worthypothesengraph

9.2.3 Wortfehlerrate

9.2
Spracherkennung

9.2.1
Probleme

9.2.2
Worthypothesengraph

9.2.3
Wortfehlerrate