Adobe Audio KI Software trennt Sprache von Störgeräuschen

Adobe hat im Rahmen der Adobe Sneaks auf der MAX in Japan den Audio Enhancer "Project Sound Lift" vorgestellt. Dabei handelt es sich um ein KI-basiertes Audio-Tool, das dabei hilft, Stimmen von Hintergrundgeräuschen zu trennen.

188

Schlechte Audioqualität ist eine ständige Herausforderung für Videoproduzentinnen. Sowohl Amateur- als auch Profifilmerinnen haben mit Audioproblemen zu kämpfen, die durch Windeinflüsse, suboptimale Mikrofonpositionen, Publikumslärm und andere Störgeräusche verursacht werden und Videos unbrauchbar machen können. Mit einer neuen KI-basierten Audio Enhancer Funktion will Adobe dieses Problem angehen.

Wie der Adobe Audio Enhancer “Project Sound Lift” funktioniert

Project Sound Lift ist eine KI-basierte Technologie, die Sprachaufnahmen in einem Video in verschiedene Spuren trennt – Sprache, nicht-sprachliche Geräusche und andere Hintergrundgeräusche. Project Sound Lift ist eine One-Click-Lösung, die Anwender*innen hilft, Audioaufnahmen in einer Reihe von Szenarien zu bearbeiten. Sie nutzt KI, um Sprache und Ton unabhängig voneinander zu optimieren, zu transformieren und zu kontrollieren. Das Projekt Sound Lift integriert Adobes „Voice Enhance“-Technologie, die bereits in Adobe-Anwendungen wie Premiere Pro verfügbar ist.

Das von den Sprach-KI-Forscherinnen bei Adobe Research entwickelte Project Sound Lift wurde heute im Rahmen der Adobe Sneaks auf der MAX in Japan vorgestellt. In der Sneaks-Session geben Adobe-Ingenieurinnen und -Forscherinnen Einblicke in prototypische Ideen und Technologien, die das Potenzial haben, zukünftig wichtige Bestandteile von Adobe-Produkten zu werden.

Herausforderungen für Adobes neue KI-Audio-Lösung

Frühere KI-Audiomodelle erfordern oft saubere, eindeutige Eingangsgeräusche – z.B. einzelne Sprecherinnen oder ein einzelnes Schallereignis ohne Hintergrundgeräusche oder Echos – während Aufnahmen aus der realen Welt diese Bedingungen selten erfüllen. Diese können Rauschen, Hall, mehrere Sprecherinnen und andere Schallereignisse enthalten, die sich oft nicht kontrollieren lassen. Diese Tatsache hat die Anwendung von Audio-KI in alltäglichen Aufnahmen eingeschränkt und es für Laien schwierig gemacht, die oft komplexen Audio-Tools zu benutzen.

Das Projekt Sound Lift ist nun in der Lage, eine breite Palette von Audioereignissen aus dem Alltag zu erkennen und zu verwalten, einschließlich der Aufteilung von Sprache, Applaus, Lachen, Alarmen, Menschenmengen und verschiedenen anderen Umgebungsgeräuschen in verschiedene Spuren. Das spannende – jede Audiospur kann individuell gesteuert werden, um den Gesamteindruck und die Klangqualität zu maximieren. Wie das funktioniert zeigt die Demo im Video.