Studienprojekte

Projekte sind ein essenzieller Bestandteil des Curriculums von Mobile Computing. Die Studierenden bekommen die Möglichkeit, das im Zuge ihres Studiums erworbene theoretische Wissen selbst praktisch umzusetzen. Ein sowohl für Studierende als auch für Lehrende immer wieder spannendes Unterrichtskonzept, in dem schon erfolgreiche Startups wie z.B. runtastic und Butleroy ihre Anfänge gefunden haben.

Evaluierung von Text-To-Speech-Engines

Zeitraum
Mar 2019 - Jul 2019
FH Studierende
Tobias Baumgartner
FH BetreuerIn
Alexander Palmanshofer BSc MSc

Ziel

Text-To-Speech-Engines erlangten in den letzten Jahren immer mehr an Bekanntheit. Mittlerweile gibt es auch von Google und Amazon schon Implementierungen als Cloud-Services, welche in einer App eingebunden werden und somit direkt in Relation zueinander gestellt werden können.

Umsetzung

Zunächst wurden allgemein die verschiedenen Text-To-Speech-Engines, kurz TTS-Engines, begutachtet. Anschließend habe ich mich für das Fokussieren auf einzelne Github-Implementierungen entschiedene. Besonderer Fokus galt einer Tacotron- und einer DCTTS-Implementierung, welche beide am Notebook zum Laufen gebracht wurden. Leider war es nicht möglich, die Engines in ein TensorFlow Lite Modell zu konvertieren und folglich in eine Android-App einzubinden. Dies wird aber im Folgeprojekt nächstes Semester geschehen. Der letzte Teil des Projekts war eine Android-App, welche drei verschiedene Engines eingebaut hat.

Die erste TTS-Engine ist eine Android-Interne. Diese funktioniert im Vergleich zu den anderen Beiden sogar ohne Internet. Ermöglicht wird dies durch das lokale Berechnen bzw. Ausführen des Machine Learning Models. Im Gegensatz dazu wird die Berechnung in den Cloud-Implementierungen in Datenzentren von Google bzw. Amazon durchgeführt und anschließend als Response ans Smartphone gesendet. Bei Google erhält man direkt eine .mp3-Datei, bei Amazon hingegen einen Link zum Download einer .mp3 Datei. Anschließend werden beide Dateien lokal gespeichert, um diese wiederholt abspielen zu können. Ein weiteres Feature ist das Anzeigen der Response-Zeiten, welche logischerweise bei den Cloud-Implementierungen um ein Vielfaches höher sind.