Thorsten-Voice
Dieser Artikel wurde für die folgenden Ubuntu-Versionen getestet:
Ubuntu 20.04 Focal Fossa
Du möchtest den Artikel für eine weitere Ubuntu-Version testen? Mitarbeit im Wiki ist immer willkommen! Dazu sind die Hinweise zum Testen von Artikeln zu beachten.
Zum Verständnis dieses Artikels sind folgende Seiten hilfreich:
Thorsten-Voice 🇩🇪 🇬🇧 ist ein 2019 gegründetes Projekt mit dem Ziel eine freie, qualitativ wertige, deutsche künstliche Stimme bereitzustellen, die einen natürlichen Sprachfluss bietet und offline (ohne Cloud) erzeugt werden kann. Die TTS Modelle wurden mittels Machine Learning auf Basis von tausenden Aufnahmen eines einzelnen männlichen Sprechers erstellt. Die zugrundeliegenden Audioaufnahmen stellt das Projekt ebenfalls unter einer offenen Lizenz zur Verfügung. Die künstliche Stimme kann per Weboberfläche oder per Kommandozeile erzeugt und als .wav Datei bereitgestellt werden.
Thorsten TTS (Mozilla/Coqui)¶
Auf Basis von Mozilla / Coqui TTS wurden zwei TTS Varianten erzeugt.
Thorsten-DDC
Thorsten-VITS
Beide Varianten bieten eine gute Qualität und einen recht natürlichen Sprachfluss. Thorsten-DDC wurde mit „eSpeak NG“ als Phonemizer trainiert, während Thorsten-VITS Gruut 🇬🇧 verwendet. Welche Aussprachevariante besser gefällt ist eine persönliche Geschmacksfrage.
Installation¶
Als Voraussetzung müssen eSpeak NG und Python in der Mindestversion 3.7 installiert sein. Die TTS-Installation wird per Python Paketmanager pip durchgeführt.
Hinweis!
Fremdsoftware kann das System gefährden.
Anmerkung: Python-Pakete über den den Paketmanager pip zu installieren, birgt Sicherheitsrisiken und kann zu Problemen mit anderen Python-Skripten führen. Näheres hierzu findet sich im Artikel pip.
Installation des TTS Python Paketes:
pip install TTS==0.8.0
Nach der Installation des Python TTS Paketes kann die Stimmerzeugung entweder per Kommandozeilenaufruf oder per lokaler Webanwendung durchgeführt werden.
Stimmerzeugung (Kommandozeile)¶
Thorsten-DDC:
tts --model_name tts_models/de/thorsten/tacotron2-DDC --out_path output.wav --text "Hier bitte den zu sprechenden Text einfügen."
oder Thorsten-VITS:
tts --model_name tts_models/de/thorsten/vits --out_path output.wav --text "Hier bitte den zu sprechenden Text einfügen."
Kommandozeilenparameter | |
Verfügbare Optionen | Bedeutung |
model_name | tts_models/de/thorsten/tacotron2-DDC oder tts_models/de/thorsten/vits |
out_path | Verzeichnis und Dateiname der Audio (WAV) Ausgabedatei |
text | Zu sprechender Text |
use_cuda | "true" falls NVIDIA CUDA verfügbar ist (bessere Performance) |
Stimmerzeugung (Browser)¶
Der lokal lauffähige TTS-Webserver bietet die folgenden Möglichkeiten:
Stimmerzeugung per Webfrontend
Stimmerzeugung per API-Aufruf (cURL oder Python Modul)
Start des TTS-Serverprozesses:
tts-server --model_name tts_models/de/thorsten/tacotron2-DDC
Anschließend kann die Webanwendung unter http://localhost:5002 aufgerufen werden.
Auf Basis des Server Prozesses kann auch ein cURL Aufruf verwendet werden:
curl -o ausgabe.wav http://localhost:5002/api/tts?text=Hallo.
Stimmerzeugung (Python Anwendung)¶
Innerhalb einer Python Anwendung kann die Thorsten Stimme per cTTS 🇬🇧 Modul erzeugt werden. Zuerst muss das Modul per pip Kommando installiert werden.
pip install ctts
1 2 3 | from ctts import cTTS cTTS.synthesizeToFile("output.wav", "Das ist ein Test.") |
Thorsten TTS (Mimic3)¶
Mimic3 ist die lokal lauffähige TTS Lösung von Mycroft AI die darauf ausgelegt ist, performante Ausgaben zu erzeugen – auch auf Geräten mit begrenzter Rechenkapazität wie einem Raspberry Pi. Allerdings geht die schnelle Erzeugung etwas auf Kosten der Qualität, so dass die Qualität etwas schlechter ist als bei den beiden oben genannten Modellen. Als Deutsche Stimme ist Thorsten-Voice ebenfalls verfügbar.
Installation¶
Es stehen verschiedene Methoden bereit Mimic3 zu installieren. Detaillierte Infos können der Mimic3 🇬🇧 Dokumentation entnommen werden. Die folgenden Schritte zeigen die Installation über den Python Paketmanager (pip).
pip install --upgrade pip pip install mycroft-mimic3-tts[de]
Stimmerzeugung¶
mimic3 --voice de_DE/thorsten_low "Hallo Ubuntu Gemeinschaft." > output.wav
Emotionale Aussprache¶
Im Rahmen von Mimic3 sind auch emotionale Ausprägungen von Thorsten-Voice verfügbar. Um ein emotionales Sprachergebnis zu bekommen muss folgender Aufruf verwendet werden.
mimic3 --voice de_DE/thorsten-emotion_low "Hallo flüsternde Ubuntu Gemeinschaft." --speaker 7 > output.wav
Folgende Tabelle zeigt die unterstützen Emotionen und den zugehörigen, im Befehl zu verwendenden, Wert.
Emotionales Thorsten TTS | |
speaker | Emotion |
0 | Glücklich |
1 | Wütend |
2 | Angeekelt |
3 | Betrunken |
4 | Neutral |
5 | Schläfrig |
6 | Überrascht |
7 | Flüsternd |