Wie rasant sich die Techniken rund um die Unterdrückung unerwünschter Tonsignale entwickelt haben, ist kaum zu glauben. Was aktuell weltweit in den Akustik-Laboren entwickelt wird, ist nicht zuletzt dank Künstlicher Intelligenz, atemberaubend. Grundsätzlich geht es darum, zwischen erwünschten und unerwünschten Tonereignissen zu unterscheiden, oder anders ausgedrückt, Nutzsignale von Störsignalen zu trennen und letztere herauszufiltern. Doch das Thema ist breiter, es wird viele Bereiche, nicht nur die Kopfhörer und Orhörer, auch die die Hörgeräte, die der digitalen Mikrofone bei Tonaufnahmen, aber auch die Ausstattung von Räumen betreffen. Viele Entwicklungen stehen in den Startlöchern, manche sind sogar bereits realisisiert und im Handel angekommen.
Frühe Grundprinzipien
Unser Gehör ist, nicht zuletzt dank unseres Gehirns, ziemlich atemberaubend. Die Hörschwelle, also die Mindestlautstärke, um etwas hören zu können, liegt genialerweise nur minimal über dem Geräuschpegel, den unser eigener Organismus etwa die Blutbahnen oder unser Pulsschlag verursachen. Wenn wir in lauter Umgebung sind, etwa in einem Raum in dem viele laute Gespräche geführt werden, schafft es unser Gehirn, einzelne Stimmen herauszufiltern und das Gespräch mit diesen Personen selektiv zu verfolgen. Dabei helfen neben dem Gehirn, welches Richtungen durch Laufzeitunterschiede zwischen den beiden Ohren zu erkennen vermag, auch die Ohrmuscheln entscheidend mit.
Leider verfügten Schallwandler (Mikrofone etc.) früher nicht über diese intelligenten Möglichkeiten, doch bereits zu analogen Zeiten versuchten Techniker das Wissen um die Tonverarbeitung im menschlichen Gehör auch elektronisch nachzubilden. Man wusste bereits, dass man Geräusche die man mit Mikrofonen von Außerhalb des Kopfhörers durch sogenannte Phasendrehung akustisch aus dem Tonsignal herausfiltern kann.
Consumer-Alltag
Doch erst die Digitalisierung hat hier spürbare Verbesserungen möglich gemacht, die wir im Alltag vor allem durch Noise-Canceling Kopfhörer und Ohrhörer (ANC-Kopfhörer) alltäglich erfahren können. Musik ungestört zu hören, ohne Straßenlärm oder Flugzeuggeräusche ertragen zu müssen, ist gelebter Alltag geworden.
Die meisten der aktuell gängigen Systeme (Bose, Sony etc.) blenden einfach alle Geräusche aus, man kann seine Musik ungestört genießen. Allerdings ist man dann in einer Art akustischer Bubble, ist isoliert, bekommt vieles einfach nicht mehr mit. Etwas weiter gehen da schon die neuesten Apples AirPods die durch fein abgestimmte Technologien wie aktive Geräuschunterdrückung, Transparenzmodus oder adaptives Audio die reale Umgebung stärker mit einbeziehen. Dank breiter Anpassungsmöglichkeiten kann eine Gesprächsverstärkung auf eine Person vor einem fokussiert werden, während alle übrigen Umgebungsgeräusche reduziert werden.
Intelligente Systeme
Dank Künstlicher Intelligenz werden in naher Zukunft allerdings noch viel fähigere Systeme möglich, welche die Unterhaltungsindustrie und die medizinischen Hörhilfen immer stärker miteinander verknüpfen. Man kann davon ausgehen, dass die Technik der Geräuschunterdrückung gerade einige Quantensprünge macht.
So lernen die neuen Systeme, die Geräuschunterdrückung zu verstärken, wenn es in der Umgebung lauter ist, und die Umgebung wieder mehr durchzulassen, wenn man sich von der Lärmquelle entfernt hat. Also eine dynamische Geräuschreduzierung. Doch das ist nur eine der leichteren Übungen. deutlich weiter geht die Entwicklung beim sognennten semantischen Hören, bei dem die Microprozessoren trainiert werden, unterschiedliche Arten von Geräuschen zu erkennen. Sie lernen, zu unterscheiden zwischen Klingeln, Sirenen, Autohupen, Vogelgezwitscher, Babygeschrei, Küchengeräte, Wecker, Haustieren und Gesprächen. Diese Systeme erlauben es, gezielt die Stimme einer Person akustisch zu isolieren (Spotlight-Modus) und alle anderen Toninformationen auszublenden.
Wenn die Systeme erwünschte und unerwünschte akustische Ereignisse unterscheiden können, sind die User einerseits nicht so von der Umwelt isoliert, sie werden aber andererseits nur von nützlichen Tonereignissen und Informationen erreicht. Das geht so weit, dass einzelne Personen etwa aus einer Gruppe von Menschen in einem Restaurant etc. erkannt und deren Stimme gezielt verstärkt werden können, während die Hintergrundatmo mit allen anderen Stimmen massiv abgesenkt wird. Damit das funktioniert muss die entsprechende Stimme von dem Gerät nur kurz erfasst und seine Charakteristika gespeichert werden. Dafür kommen Deep-Learning-Algorithmen zur Anwendung.
Nadelör Datenverarbeitung
All das ist natürlich nur möglich, wenn diese Informationen irgendwo ausgwertet werden. Die meisten Deep Learning Systeme arbeiten irgendwie mit Rechenzentren zusammen, also mit der Cloud. Dieser Datentransfer ist allerding zu langsam um schnell genug lippensynchron wieder auf ein Kopf,- oder Ohrhörersystem ausgegeben zu werden. Man muss die Intelligenz also in das Gerät selbst einbauen, was angesichts des begrenzten Raumes und der Rechenkapazität von Kopfhörern eine Herausforderung ist. Doch erstaunlicherweise ist es tatsächlich möglich, die KI Modelle sehr reduziert und für den Einsatzzweck spezifiziert in diese Schallwandler einzubauen und so fast Echtzeit Wiedergabe, also mit nur sehr niedriger Latenz zu ermöglichen.
Mehr Rechenleistung und Platz bieten die immer beliebter werdenden Smart Glasses, hier liegt weiteres Potenzial, komplexere Rechenvorgänge rund um die akustische Optimierung unterzubringen, allerdings sind die Lautsprechersysteme der Brillen bisher als miniaturisierte Aussenlautsprecher und nicht als In Ear Ohrhörer konzipiert. In dieser Richtung wird es sicherlich weitere Entwicklungsschritte geben.
Einfluss auf den Filmton
Es ist davon auszugehen, dass die Intelligenz hinter diesen Verfahren auch recht schnell in verbesserten Sound-Optimization Programmen für die Postproduktion von Filmton Anwendung finden werden. Und auch Location-Sound Mikrofone könnten künftig viel besser unerwünschte Tonereignisse ausblenden und beispielsweise Stimmen von Schauspieler*Innen viel deutlicher in den Vordergrund holen. Damit werden Tonangler sicherlich nicht arbeitslos, doch ihre schwierige Arbeit, stets präzise auf dem Mund der Sprechenden zu sein, wird dadurch vielleicht ein wenig leichter.

