Sprachsynthese

[ Weiter ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

9.1. Sprachsynthese

Sprachsynthesesysteme ▸▸▸

Deﬁnition 9.1.1 (Text-To-Speech System, TTS). Ein Sprachsynthesesystem erzeugt aus einer Zeichenkette (Text) ein akustisches Signal.

Die Spracherzeugung setzt eine mehr oder weniger tiefe linguistische Textanalyse voraus.

Beispiel 9.1.2 (Ein deutscher Stolpersatz).
“Dr. A. Smithe von der NATO (und nicht vom CIA) versorgt z.B. - meines Wissens nach - die Heroin seit dem 15.3.00 tgl. mit 13,84 Gramm Heroin zu 1,04 DM das Gramm.”

Welche Schwierigkeiten liegen vor?
Was kann ein TTS damit anfangen? Z.B. [GERMAN 2006]

Qualitätsmerkmale für Sprachsynthese

Silbenübergänge : Wie natürlich werden Silbenübergänge lautiert?
Wortbetonung : Sind die Betonungen bei (unbekannten) Wörtern korrekt?
Satzmelodie/Satzbetonung : Ergibt die Satzbetonung Sinn oder bleibt alles hölzern neutral?
Sprechtempo : Zu schnell, zu langsam?
Sprechrhythmus : Monotones Geraspel oder gegliederte Information?
Pausen : Finden Sprechpausen (an der richtigen Stelle) statt?

Weiteres

Unterschiedliche Benutzer haben unterschiedliche Bedürfnisse. Blinde Personen schätzen es, wenn das Sprechtempo stark erhöht werden kann.

Einsatzmöglichkeiten von Sprachsynthese

(Mobil-)Telefonie : Auskunftssysteme (Tourismus, Kinoprogramm, Wetter, Börsenkurse usw.), welche meist mit einem Spracherkennungssystem gekoppelt sind
Informationssysteme , welche keine visuelle Ablenkung erzeugen dürfen: Navigationssysteme im Auto, E-Mail-Vorlesesysteme im Auto usw.
Computerarbeitsplätze für Sehbehinderte
Künstliche Stimme für Sprechbehinderte
Sprachenlernen
…

9.1.1. Architektur

Typische Architektur von TTS
Vom der Zeichenkette zum Laut

Tokenisierung
Lexikalische Analyse mit einem Lexikon
(Flache) syntaktische Analyse für lexikalische Desambiguierung und für die syntaktische und prosodische Phrasierung (Phrasengrenzen und Akzente)
Phonologische Analyse
Lautproduktion aufgrund der Phonemfolge mit Information zu Lautdauer und Intonation

Beispiel-Architektur von MARY TTS

pict

Abbildung 9.1:

Architektur von MARY-TTS-System

9.1.2. Ausgewählte Probleme

Aussprache von Ziﬀern und Abkürzungen
Die Aussprache von Ziﬀernotationen variiert vielfältig innerhalb einer Sprache und zwischen Kulturräumen [LIBERMAN und CHURCH 1992].

Beispiel 9.1.3 (Varianten im Deutschen).

Einzelziﬀern : 1456 “ Konto eins vier fünf sechs”
Zahl : 1456 “Eintausendvierhundertsechsundfünfzig”
Hunderter : 1456 “Vierzehnhundert(und)sechsundfünfzig”
Paare oder Trippel : “044 344 56 10”
Ordinalzahlen : “Am 2.12. kam die 2. Frau trotz 2. Platz nicht ins Final.”

Frage

Welche Aussprachen sind für welche Grössen verbreitet?

Probleme bei Abkürzungen

Welche Schwierigkeiten stellt die Aussprache von Abkürzungen?

Prosodie
Um Satzintonation (Prosodie) korrekt wiederzugeben, braucht es teilweise detaillierte linguistische Analysen.

Beispiel 9.1.4 (Satzintonation und -rhythmus).
The rear aggregate pumps …

…work ﬁne.
…50 gallons of fuel a second into the engine.

Beispiel 9.1.5 (Satzbetonung und Pausen).

She left DIRECTIONS for Joe to follow.
She left directions for Joe to FOLLOW.

Was ist Prosodie auf Satzebene? [BADER 2006]

Pausen und Satzbetonung sind an der Amplitude der Schallwellen ablesbar. Der Grundfrequenzverlauf (oft mit f0 bezeichnet) gibt die relativen Tonhöhenunterschiede in der gesprochenen Sprache wieder.

pict

Abbildung 9.2:

Satzintonation im Deutschen nach [BADER 2006]

Ein frei verfügbares Tool, um die verschiedenen akustischen Aspekte der Sprache auf dem Computer zu analysieren, ist unter http://www.praat.org zu ﬁnden.

Prosodie: ToBI-Modell (Tones and Break Indices)

H (high): Hohe Satzmelodie
L (low): Tiefe Satzmelodie
[HL]*: Auszeichnung der betonten Silbe
[HL]+[HL]: Tonwechsel innerhalb von Wörtern
[HL]%: Satzendebetonung
[HL]– : Phrasenbetonung (sekundärer Satzakzent)

Beispiel: Prosodie [SIMMONS 2006b]

pict
Quelle: http://anita.simmons.edu/~tobi/chap2-7/chapter2-7.htm

Abbildung 9.3:

Satzintonation mit ToBi-Annotierung (Hörbeispiel: [SIMMONS 2006a])

Weitere Probleme

Mehrdeutigkeiten der morphologischen Analyse:
Wählerstimmen = wähl+erst+imme+n
Einschlüsse verschiedener Sprachen in einem Text
“Er hat dies nur contre coeur live gesungen.”
Umgang mit named entities

9.1.3. Analyseebenen

Phonetische Analyse
Wie werden die einzelnen Laute eines Wortes in Isolation repräsentiert?

Deﬁnition 9.1.6 (Pronunciation Dictionary). Ein elektronisches Aussprachewörterbuch enthält für (ﬂektierte) Wortformen eine Repräsentation in einer Lautschrift.

Z.B. in Form des International Phonetic Alphabet (IPA) http://www.arts.gla.ac.uk/IPA, bzw. einer auf Computern einfacher verwendbareren Kodierung davon.

Beispiel 9.1.7 (Formate elektronischer Aussprachewörterbücher nach [JURAFSKY und MARTIN 2000]).

Pronlex: +arm.xd’Il.o,
CELEX (britisch): "#-m@-’dI-15 = [ˈa:.mə.ˈdɪ.ləʊ],
CMU (amerikanisch): AA2 R N AH0 D IH1 L OW0 = [ˈarmʌˈdɪ.loʊ]

IPA-Lautschrift für Deutsch

pict

Quelle: [CARSTENSEN et al. 2004, 157]

Abbildung 9.4:

IPA-Symbole für Deutsch

Phonetische Lautschrift (SAMPA German)
Eine in ASCII kodierte Notationsvariante für IPA-Symbole.

: (langer Vokal), ’ (Hauptbetonung), - (Silbengrenze)
Plosive : p (Pein), b (Bein), t (Teich), d (Deich), k (Kunst), g (Gunst), ? (Atem)
Frikative : f (fast), v (was), s (das), z (sein), S (Schein), Z (Genie), C (ich), x (ach), r (rein), h (Hand)
Sonoranten : m (mein), n (nein), N (lang), l (laut), j (ja)
Ungespannte Vokale : I (Sitz), Y (hübsch), 9 (plötzlich), E (Bett), U (Schutz), O (Trotz), a (Satz), @ (bitte), 6 (kurz),
Gespannte Vokale : i (bin), y (süss), e: (Reh), 2: (blöd), E: (spät), u: (Blut), o: (rot)

Frage

Wie kann man das Wort “jenseits” schreiben?

Diphone und Halbphoneme
Die Verwendung der klassischen linguistischen Einheit Phonem (35-50 pro Sprache) für Sprachgenerierung ergibt keine guten Systeme.

Wie lassen sich natürlichere und ﬂiessende Übergänge der Laute erzeugen?

Deﬁnition 9.1.8 (Diphone ▸▸▸). Ein Diphon geht von der Mitte eines Phonems zur Mitte des nächsten Phonems. Für Deutsch kommt man etwa auf 2’500 existierende Diphone, für Spanisch auf 800.

In der Phonemmitte ist das menschliche Gehör weniger empﬁndlich auf Unebenheiten.

Beispiel 9.1.9 (Stimmen klonen mit Halbphonemen ▸▸▸).
AT&T Natural Voices konnte im Jahr 2001 aus ca. 40h Stimmaufnahmen eine sehr natürliche Kunststimme extrahieren. Dazu wurden u.a. die verschiedensten Sprechvarianten von Phonemen aufgenommen und jeweils in der Mitte halbiert.

Phonologische Analyse
Welche Gesetzmässigkeiten der gegenseitigen Beeinﬂussung von Lauten in ihrem (aus-)sprachlichen Kontext gelten?

Deﬁnition 9.1.10 (Phonological Rules). Phonologische Regeln speziﬁzieren die Umstände, unter denen phonologische Alternationen statt ﬁnden.

Die Zwei-Ebenen-Morphologie bietet eine praktische Modellierung und Implementation dafür an.

Beispiel 9.1.11 (Phonologische Alternationen).
Das Plural-s wird im Englischen je nach Umgebung ganz unterschiedlich ausgesprochen: “peaches”, “pigs”, “cats”.

Teilweise lassen sich solche Eﬀekte durch maschinelle Lernverfahren aus den Daten ableiten.

Sprachkonserven
Am primitivsten funktioniert Sprachsynthese, wenn ganze Wörter oder Teilsätze als akustische Sprachkonserven nacheinander ausgegeben werden.

Dies funktioniert für eingeschränkte Anwendungsgebiete: "Jetzt. Bitte. Rechts. Abbiegen."

Beispiel 9.1.12 (Ein Problem zu einfacher Ansätze).

lead: Verb /li:d/ (führen); Nomen: /led/ (Blei)
increase: Nomen /’inkri:s/ (Anstieg); Verb /inkr’i:s/ (ansteigen)

Speech Synthesis Markup Language (SSML)
Dieser XML-Standard erlaubt eine strukturierte Speziﬁkation von verschiedenen Parametern einer Speech-Applikation.

<p>
  <s xml:lang="en-US">
    <voice name="David" gender="male" age="25">
      For English, press <emphasis>one</emphasis>.
    </voice>
  </s>
  <s xml:lang="es-MX">
    <voice name="Miguel" gender="male" age="25">
      Para español, oprima el <emphasis>dos</emphasis>.
    </voice>
  </s>
</p>

http://www.w3.org/TR/2004/REC-speech-synthesis-20040907/

[ Weiter ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]