Barrierefreiheit beim WDR – Sender führt Text to Speech ein

Der WDR hat ein Text to Speech (TTS) System implementiert, um die Barrierefreiheit der Senderangebote noch weiter zu verbessern und im Katastrophenfall visuell eingeschränkte ZuschauerInnen zu warnen.

110
Text to Speech Symbolbild ©LOGIC media solutions

Das neue System des WDR wandelt bei wichtigen Ereignissen oder im Katastrophenfall ad hoc eingeblendete Textnachrichten oder Tickermeldungen in Sprache um, die zusätzlich zum Sendesignal als Audiosignale ausgestrahlt werden. Auch visuell beeinträchtigte ZuschauerInnen können dann die Textmeldungen als Audiosignale empfangen – besonders wichtig im Katastrophenfall. LOGIC media solutions realisierte das System und sorgte für die nahtlose Integration in die Produktionsabläufe des WDR.

Für die Sprachsynthese kommt das Allinga Voice TTS-Modul zum Einsatz, eine gemeinsame Entwicklung der Fraunhofer-Institute IAIS und IIS. Es besteht aus einem redundanten Docker-Deployment, welches das Allinga Voice TTS Modul und einen von LOGIC programmierten Client enthält, wobei das Allinga Voice TTS Modul beim WDR Köln on-prem installiert ist. Wenn im Sendezentrum ein Signal zur Textgenerierung ausgelöst wird und eine Textnachricht auf dem Newsfeed-Server im ARD CN vorliegt, fragt der Client diese vom Server ab und Allinga Voice TTS synthetisiert daraus Sprache in Form von Audiosamples. Die Audioserver sind aus Redundanzgründen doppelt vorhanden. Das erzeugte Audiosignal wird dann über AES-3 in der Sendezentrale zur Verfügung gestellt und bei Bedarf abgespielt. Der dafür eingesetzte Embedder senkt den eigentlichen Sendeton ab und überlagert das Audiosignal der Audioserver mit dem Sendeton.

„Wir freuen uns, dass wir mit unserer Allinga Voice TTS Technologie dazu beitragen können, die Soforthilfe und den Informationsfluss in Katastrophenfällen zu unterstützen. Unsere Allinga Sprachassistenzlösungen sind vielfältig einsetzbar und tragen maßgeblich zur Barrierefreiheit bei. In diesem Kontext bieten wir über das TTS-Modul hinaus noch weitere Technologien, wie die Spracherkennung, die gesprochene Sprache in Text umwandelt. So sind auch Einsatzszenarien in anderen Kontexten denkbar – etwa die Transkription von öffentlichen Reden”, sagt Oliver Hellmuth, Abteilungsleiter am Fraunhofer IIS.

Anzeige
Riedel Ad

Bei der Umsetzung des Systems legte LOGIC besonderen Wert auf einen weitestgehend automatisierten Ablauf und eine schnelle Inbetriebnahme, da das System vor allem in Katastrophenfällen zum Einsatz kommen soll. Der Fokus lag dabei auf der direkten Ansprache der Lösung ohne zusätzliche Arbeitsschritte oder Geräte. Das TTS-System wird über den Broadcast Controller (KSC) gesteuert und das Starten und Stoppen erfolgt in der Praxis vom Newsroom aus durch den Anwender (Redakteur), ohne dass ein SAW-Ingenieur benötigt wird.

Relevante Unternehmen