Mebucom / News / Technik / Fraunhofer zeigt KI-basierte Content-Analyse
Mit dem Audio-Mining-System des Fraunhofer IAIS lassen sich Ton- und Videospuren gezielt nach O-Tönen durchsuchen, die Sprechererkennung erlaubt es, Personen zu finden und in der Datei gezielt anzusteuern. © Fraunhofer IAIS

News: Technik

Fraunhofer zeigt KI-basierte Content-Analyse

Auf der IBC 2019 stellen die Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Digitale Medientechnologie IDMT KI-basierte Content-Analysetools (Stand 8.B80) vor. Sie sollen Medienschaffenden die Arbeit erleichtern und erlauben, den Medienkonsumenten individuell zugeschnittene Programminhalte anzubieten.

Mit Hilfe von Künstlicher Intelligenz und Maschinellem Lernen sind moderne Medientechnologien in der Lage, Sprache, Texte und Bilder, aber auch Audio- oder Videodateien auf ihre Inhalte hin zu analysieren, sie maschinenlesbar abzubilden und für die Auswertung oder Weiterverarbeitung bereitzustellen. Content-Analysetools sind gefragt, denn die meisten Datenbestände können vom Menschen allein nicht mehr überblickt werden. Die auf Datenanalyse und Medientechnologie spezialisierten Wissenschaftlerinnen und Wissenschaftler der Fraunhofer-Institute IAIS und IDMT haben entsprechende Tools für verschiedene Anwendungsszenarien und Medientypen entwickelt. Neben professionellen Anwendern in Redaktionen oder Archiven profitieren auch die Nutzer zu Hause.

Recherche-Hilfe: Audio-Mining-Tool analysiert täglich rund 2000 Stunden an Archivmaterial für die Rundfunkanstalten der ARD 

O-Töne aus Radio- oder Videoaufzeichnungen herauszusuchen ist für Journalisten und Redakteure meist eine langwierige Angelegenheit. Mit dem Audio-Mining-System des Fraunhofer IAIS lassen sich Ton- und Videospuren gezielt nach O-Tönen durchsuchen. Dazu werden Radio- oder Fernsehbeiträge mit Deep Learning in Textdateien transkribiert. Dr. Christoph Schmidt, Geschäftsfeldleiter Speech Technologies am Fraunhofer IAIS erklärt: »Jede Sendung liegt komplett als Textdatei vor, in der sich einzelne Suchbegriffe in Bruchteilen einer Sekunde auffinden lassen. Zu jedem Wort sind zudem die Zeitmarkierungen in der Sendung hinterlegt – man kann also die gewünschte Stelle im Text markieren und den gesuchten Audioschnipsel auf diese Weise ausschneiden und ansteuern.«

Mit Hilfe des Sprecher-Clusterings und der Sprechererkennung ist es außerdem möglich, Personen voneinander zu unterscheiden und so gezielt zu finden. Das System kann daher komplexere Anfragen beantworten wie: »Aussagen von Merkel zum Atomausstieg« oder in einer Talkshow mit einem Klick zum Beitrag einer bestimmten Person springen, was die Recherche in Archiven enorm erleichtert. Im praktischen Einsatz ist das Tool unter anderem bei den Sendern der ARD. Mit der Fraunhofer-Technologie analysieren die Rundfunkanstalten täglich rund 2000 Stunden an Archivmaterial.

Das Team des Fraunhofer IAIS forscht derzeit an der Weiterentwicklung seiner Sprachtechnologien in Richtung Dialogsysteme. So soll das System bald schon auf gesprochene Fragen antworten können – als eine Art intelligenter Assistent für Radio und Fernsehen. Ein anderes Anwendungsszenario für das Audio-Mining-Tool sind Interviews oder andere Aufnahmen, die direkt live transkribiert werden: Die Produktion von Sendungen wird somit erleichtert. Im Sächsischen Landtag wird die Technologie bereits zur Live-Untertitelung von Debattenbeiträgen genutzt. Zukünftig könnte das Tool bei Live-Übertragungen im Fernsehen zum Einsatz kommen oder Streaming-Anbietern zeitraubende Transkriptionsprozesse ersparen.

KI-basierte Programmanalyse im Einsatz bei Rundfunkanstalten

Analysieren lassen sich mit Fraunhofer-Technologien nicht nur einzelne Sendungen, sondern auch ganze Programme. Eine KI-basierte Programmanalyse des Fraunhofer IDMT findet heraus, welche Sender Neuigkeiten üblicherweise als erste melden, wie stark sich ein Radioprogramm wiederholt oder in welchem Maße es sich von anderen Sendern abhebt. Radiosender können mit diesen Informationen ihr Programm entsprechend optimieren.

Mit Hilfe des sogenannten »Partial Matching« analysiert das Fraunhofer-Team, wie häufig sich Jingles, Nachrichtenbeiträge, Werbe-Einspieler oder Musikstücke wiederholen. »Anhand dieser Wiederholungen und deren zeitlicher Anordnung kann man auf den Inhalt schließen und Vergleiche mit anderen Programmen vornehmen«, sagt Patrick Aichroth, Gruppenleiter Media Distribution and Security am Fraunhofer IDMT. Das Tool ist außerdem in der Lage, musikalische Eigenschaften wie Genre oder Tempo der Musikstücke zu identifizieren, Sprach- und Musikanteile voneinander zu unterscheiden sowie weitere Details zu den Inhalten zu ermitteln. So lässt sich beispielsweise darstellen, welche Nachrichtenbeiträge mit welcher zeitlichen Verzögerung und welchen inhaltlichen Veränderungen bei verschiedenen Sendern auftauchen. 

Personalisierte Radio- oder Fernsehprogramme für Musik- und Serienfans

Radio- und Fernsehsender wollen ihren Nutzern personalisierte Angebote machen – ähnlich wie bei Streaming-Anbietern oder Onlineshops, ohne dabei aber den Datenschutz zu vernachlässigen. Empfehlungen lassen sich sowohl auf Basis einer Inhaltsanalyse als auch auf Basis einer Nutzungsanalyse erstellen. Beide Verfahren haben Vor- und Nachteile: Mit dem ersten lassen sich Empfehlungen über verschiedene Medientypen hinweg (Bild, Text, Audio, Video) besser realisieren, mit dem zweiten kann man schnell und dynamisch auf Feedback von Nutzern reagieren.

Das Team des Fraunhofer IDMT kombiniert beide Methoden in der sogenannten »Hybrid Recommendation« und vereint so die Vorteile, während die Nachteile ausgemerzt werden. Datenschutz steht dabei an erster Stelle: Mit einem am Fraunhofer IDMT patentierten Verfahren können Datenanalysen, Personalisierungs- und Empfehlungsdienste realisiert werden, mit denen der reale Nutzer nicht ermittelt werden kann.

Die Fraunhofer-Institute IAIS und IDMT arbeiten derzeit daran, die Technologien miteinander zu verknüpfen, um die Einsatzmöglichkeiten und Anwendungsoptionen für die Medienbranche zu vervielfachen. (9/19)

Foto: Mit dem Audio-Mining-System des Fraunhofer IAIS lassen sich Ton- und Videospuren gezielt nach O-Tönen durchsuchen, die Sprechererkennung erlaubt es, Personen zu finden und in der Datei gezielt anzusteuern. © Fraunhofer IAIS

Zurück