Sprachsynthese

[ Weiter ] [ Seitenende ] [ Überkapitel ]

9.1
Sprachsynthese

Sprachsynthesesysteme ▸▸▸

Definition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer Zeichenkette (Text) ein akustisches Signal.

Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.

Beispiel 9.1.2 (Ein deutscher Stolpersatz).
“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”

Welche Schwierigkeiten liegen vor?
Was kann ein TTS damit anfangen? Z.B. [German 2006]

Qualitätsmerkmale für Sprachsynthese

Was macht gute Sprachsynthese aus?

Silbenübergänge : Wie natürlich werden Silbenübergänge lautiert?
Wortbetonung : Sind die Betonungen bei (unbekannten) Wörtern korrekt?
Satzmelodie/Satzbetonung : Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?
Sprechtempo : Zu schnell, zu langsam?
Sprechrhythmus : Monotones Geraspel oder gegliederte Information?
Pausen : Finden Sprechpausen (an der richtigen Stelle) statt?

Weiteres

Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es, wenn das Sprechtempo stark erhöht werden kann.

Einsatzmöglichkeiten von Sprachsynthese

Wo ist Sprachsynthese praktisch anwendbar?

(Mobil-)Telefonie : Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind
Informationssysteme , welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw.
Computerarbeitsplätze für Sehbehinderte
Künstliche Stimme für Sprechbehinderte
Sprachenlernen
…

9.1.1
Architektur

Typische Architektur von TTS
Vom der Zeichenkette zum Laut

1.: Tokenisierung (Satzsegmentierung, Normalisierung von Abkürzungen usw.)
2.: (Flache) syntaktische Analyse für lexikalische Desambiguierung (Tagging) und für die prosodische Gestaltung der Phrasengrenzen/Pausen und Akzente (Chunking, Parsing)
3.: Lexikalische Analyse mit einem Lexikon und/oder Regeln
4.: Phonologische und prosodische Analyse
5.: Lautproduktion aufgrund der Lautfolge mit Information zu Lautdauer, Tonhöhe (Grundfrequenz), Lautstärke (Intensität).

Beispiel-Architektur von MARY TTS

pict

Abbildung 9.1:

Architektur von MARY-TTS-System

9.1.2
Analyseebenen

Aussprache von Ziffern und Abkürzungen
Die Aussprache von Ziffernotationen variiert vielfältig innerhalb einer Sprache und zwischen Kulturräumen [Liberman und Church 1992].

Frage

Welche Aussprachen sind für welche Grössen verbreitet?

Beispiel 9.1.3 (Varianten im Deutschen).

Einzelziffern : 1456 “ Konto eins vier fünf sechs”
Zahl : 1456 “Eintausendvierhundertsechsundfünfzig”
Hunderter : 1456 “Vierzehnhundert(und)sechsundfünfzig”
Paare oder Trippel : “044 344 56 10”
Ordinalzahlen : “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”

Probleme bei Abkürzungen

Welche Schwierigkeiten stellt die Aussprache von Abkürzungen?

Phonetische Analyse: Lautfolgen und Akzente von Wörtern
Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?

Definition 9.1.4 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (flektierte) Wortformen oder Grundformen eine Repräsentation der Lautform (Lautfolge, Akzente) in einer Lautschrift.

Z.B. in Form der Revision 2005 des International Phonetic Alphabet (IPA) http://www.langsci.ucl.ac.uk/ipa, bzw. einer auf Computern einfacher verwendbareren Kodierung davon.

Beispiel 9.1.5 (Formate elektronischer Aussprachewörterbücher nach [Jurafsky und Martin 2000]).

Pronlex: +arm.xd’Il.o
CELEX (britisch): "#-m@-’dI-15 =[a:.mə.ˈdɪ.ləʊ],
CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [armʌˈdɪ.loʊ]

IPA-Lautschrift für Deutsch
Vgl. volles IPA in [Carstensen et al. 2009, 213])

pict

Quelle: [Carstensen et al. 2004, 157]

Abbildung 9.2:

IPA-Symbole für Deutsch

Phonetische Lautschrift (SAMPA German)
Eine in ASCII kodierte Notationsvariante für IPA-Symbole.

: (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)
Plosive : p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ?
(Atem)
Frikative : f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x
(ach), r (rein), h (Hand)
Sonoranten : m (mein), n (nein), N (lang), l (laut), j (ja)
Ungespannte Vokale : I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a (Satz), @ (bitte), 6 (kurz),
Gespannte Vokale : i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u:
(Blut), o: (rot)

Frage

Wie kann man das Wort “jenseits” schreiben?

Hinweis: Das Wiktionary für Deutsch http://de.wiktionary.org ist auch ein Aussprachewörterbuch.

Phonologische Analyse
Welche Gesetzmässigkeiten der gegenseitigen Beeinflussung von Lauten in ihrem (aus-)sprachlichen Kontext gelten?

Definition 9.1.6 (Phonological Rules). Phonologische Regeln spezifizieren die Umstände, unter denen phonologische Alternationen statt finden.

Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür an.

Beispiel 9.1.7 (Phonologische Alternationen im Englischen).
Das Plural-(e)s wird nach Stammendung unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”. ▸▸▸

Morphologie und Ausspracheregeln

Beispiel 9.1.8 (Aussprache von „st“ im Deutschen).
Wann spricht man „st“ als [ʃt] und wann als [st]? Beispiele: Lastwagen, staunen, bestaunen, Staubsauger, Feinstaub, Krebstest, zurückkrebste

Anwendung von Ausspracheregeln

Ausspracheregeln beziehen sich nicht auf das Wort, sondern auf Morphe (Vorsilben, Endungen, Wortstämme).

Beispiel 9.1.9 (Auslautverhärtung).
Im Deutschen werden gewisse Laute entstimmlicht, wenn sie am Ende eines Morphs stehen und nicht vor einem Vokal. „Krug“ → [’kru:ɡ]→ [’kru:k] „Krug+s“ → [’kru:ɡ]+[s] → [’kru:ks] „Krug+es“ → [’kru:ɡ]+[əs] → [’kru:ɡəs]

Probleme der morphologischen Analyse und Lautfolgenberechnung

Mehrdeutigkeiten der morphologischen Analyse:
Wählerstimmen = wähl+erst+imme+n ▸▸▸
Einschlüsse verschiedener Sprachen in einem Text
“Er hat dies nur contre coeur live gesungen.”
Umgang mit Named Entities

Prosodische Analyse: Akzentuierung im Wort

Definition 9.1.10 (Wortakzent). Der Wortakzent ist diejenige Silbe eines Worts, welche am stärksten betont wird.

Mehrsilbige Wörter und Komposita haben oft Nebenakzente.

Regelhaftigkeit von Wortakzenten im Deutschen

Bei einfachen Wörtern eine lexikalische Information.
Präfixe, Suffixe und Infixe sind regelhaft: be-, -lich, -tät, -al
Bei Komposita (Zusammensetzungen) trägt immer der Wortakzent des Vorderglieds den Hauptakzent: Hauptakzenterkennungsroutine
Flexionsbetonung: Doktor vs Doktoren

Die Nebenakzente können immer durch Fokusakzentuierung semantisch/pragmatisch zum stärksten Akzent gemacht werden.

Beispiel: Prosodie [Simmons 2006b]

Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen Sprache wieder.

pict
Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm

Abbildung 9.3:

Satzintonation mit ToBi-Annotierung (Hörbeispiel: [Simmons 2006a])

Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu finden.

Prosodie: ToBI-Modell (Tones and Break Indices)

H (high): Hohe Satzmelodie
L (low): Tiefe Satzmelodie
[HL]*: Auszeichnung der betonten Silbe
[HL]+[HL]: Tonwechsel innerhalb von Wörtern
[HL]%: Satzendebetonung
[HL]– : Phrasenbetonung (sekundärer Satzakzent)

Prosodische Analyse: Phrasen und Sätze
Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen.

Beispiel 9.1.11 (Satzintonation und -rhythmus).
The government plans…

…were defeated.
…to raise taxes.

Grundregel der Phrasierung

Eine Phrasengrenze zwischen 2 benachbarten Wörtern ist umso plausibler, je stärker die Wörter in der syntaktischen Struktur getrennt sind voneinander.

9.1.3
Sprachsignalproduktion

Sprachsignalproduktion

Prosodiesteuerung

Aus der phonologische Analyse (Laute, Akzente, Pausen, Tonhöhenverlauf) werden die prosodischen Parameter der Laute für die Sprachsynthese berechnet: Dauer, Grundfrequenz, Intensität . Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme.

Wie lassen sich natürlichere und fliessende Übergänge der Laute erzeugen?

Definition 9.1.12 (Diphone ▸▸▸). Ein Diphon geht von der Mitte eines Phonems zur Mitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für Spanisch auf 800.

Koartikulation von Lauten wird dadurch auf jeweils 2 Phonemkombinationen beschränkt. In der Phonemmitte ist das menschliche Gehör weniger empfindlich auf Unebenheiten.

Sprachsignalproduktion: Sprachkonserven
Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische Sprachkonserven nacheinander ausgegeben werden.

Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."

Beispiel 9.1.13 (Ein Problem zu einfacher Ansätze).

lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Unit Selection Databases

Ein Weiterentwicklung sind grosse Datenbanken, welche unterschiedlich grosse Einheiten (Diphone, Phone, Silben, Wörter) umfassen und eine optimale Selektion daraus versuchen.

Speech Synthesis Markup Language (SSML)
Dieser XML-Standard erlaubt eine strukturierte Spezifikation von verschiedenen Parametern einer Speech-Applikation.

<p>
  <s xml:lang="en-US">
    <voice name="David" gender="male" age="25">
      For English, press <emphasis>one</emphasis>.
    </voice>
  </s>
  <s xml:lang="es-MX">
    <voice name="Miguel" gender="male" age="25">
      Para español, oprima el <emphasis>dos</emphasis>.
    </voice>
  </s>
</p>

http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/

[ Weiter ] [ Seitenbeginn ] [ Überkapitel ]

9.1 Sprachsynthese

9.1.1 Architektur

9.1.2 Analyseebenen

9.1.3 Sprachsignalproduktion

9.1
Sprachsynthese

9.1.1
Architektur

9.1.2
Analyseebenen

9.1.3
Sprachsignalproduktion