Rubrik Kultur auf dem Dreiecksplatz
Dudelsack auf dem Dreiecksplatz
Gänsemarkt auf dem Dreiecksplatz
Koffermarkt auf dem Dreiecksplatz
Kulturgemeinschaft Dreiecksplatz
Kunstautomat auf dem Dreiecksplatz
Langenachtderkunst 2016, »Waffelskulpturen«
Langenachtderkunst 2017, »GToastet«
Langenachtderkunst 2018, »Transpohrter«
Langenachtderkunst 2019, »GTrommelt«
Sponsoren, Freunde und Förderer der Kulturgemeinschaft Dreiecksplatz
Einzelhandel am Dreiecksplatz, Übersicht
Bezirksdirektion Kattenstroth – die Continentale, Kattenstroth seit 1976 GmbH & Co. KG
Rüterbories Sicherheitsfachgeschäft am Dreiecksplatz
Tonspuren: Maschinenlernen erkennt Gefühle richtig. Foto: Luis Jose Rengel, Informationen zu Creative Commons (CC) Lizenzen, für Pressemeldungen ist der Herausgeber verantwortlich, die Quelle ist der Herausgeber
#KI erkennt #Gefühle in Stimmen von Menschen [Emotionen, nicht »Gefühle«, Anm. d. Red.]
Berlin, PTE, 20. März 2024
Entwicklungspsychologen des Max Planck Instituts für Bildungsforschung nutzen technische Tools auf Basis Künstlicher Intelligenz (KI), um emotionale Untertöne in Fragmenten von Aufzeichnungen von Stimmen zu erkennen. Dafür hat das Team um Forschungsleiter Hannes Diemerling die Genauigkeit der Arbeitsweise von drei Modellen maschinellen Lernens miteinander verglichen.
1,5 Sekunden reichen aus
Laut Diemerling kann maschinelles Lernen dafür eingesetzt werden, Gefühle in Audioaufzeichnungen zu erkennen, die nur 1,5 Sekunden lang sind. »Unsere Modelle erzielten dabei eine ähnliche Genauigkeit wie Menschen.« Für die Studie wurden Schauspieler eingesetzt, die bedeutungslose Sätze mit einer emotionalen Färbung versahen. Die Forscher entnahmen diese Sätze aus 2 Datensätzen. Einer stammte aus #Kanada, der andere aus #Deutschland.
Damit konnte überprüft werden, ob das maschinelle Lernen Gefühle richtig erkennen kann und das unabhängig von der Sprache, kulturellen Nuancen und dem semantischen Inhalt. Jeder Clip wurde auf eine Länge von 1,5 Sekunden gekürzt. So lange brauchen nämlich auch Menschen, um das Gefühl beim Sprechen zu erkennen. Dabei handelt es sich zudem auch um die kürzeste mögliche Länge, bei der das Überlappen von Gefühlen vermieden werden kann.
Drei Modelle ausgetestet
Basierend auf den Trainingsdaten haben die Experten KI Modelle, die auf jeweils eine von drei Arten arbeiten, untersucht. Bei tiefen neuronalen Netzen (DNNs) handelt es sich um komplexe Filter, die Komponenten von Klang wie die Frequenz oder die Tonhöhe analysieren. Das ist zum Beispiel der Fall, wenn eine Stimme lauter ist, weil die sprechende Person wütend ist. Ziel dieser tiefen neuronalen Netze war es, die zugrundeliegenden Emotionen zu identifizieren.
Konvolutionale neuronale Netze (CNNs) wiederum suchen nach Mustern in der bildlichen Darstellung von Tonspuren. Das entspricht in etwa der Erkennung von Gefühlen mittels des Rhythmus und der Beschaffenheit einer Stimme. Das hybride Modell (C DNN) verbindet beide Verfahren und nutzt sowohl den Ton als auch sein visuelles Spektrogramm zur Vorhersage von Gefühlen. Diese Modelle wurden dann anhand beider Datensätze auf ihre Leistungsfähigkeit getestet.
Ähnliche Muster erkannt
DNNs und C DNNs erzielten eine bessere Genauigkeit, als wenn nur die Spektrogramme der CNNs ausgewertet wurden. Unabhängig vom jeweiligen Modell war die Erkennung der Gefühle mit einer größeren Wahrscheinlichkeit richtig, als sie durch ein Raten möglich ist und damit durchaus mit der Genauigkeit beim Menschen vergleichbar. Dabei war es den Forschern wichtig, ihre Modelle in einem realistischen Kontext anzusiedeln und die Fähigkeiten der Menschen zur Vorhersage als Maßstab heranzuziehen. »Hätten die Modelle besser abgeschnitten als die Menschen, hätte das bedeuten können, dass es Muster gibt, die wir nicht erkennen können«, so Diemerling.
Die Tatsache allerdings, dass nicht trainierte Menschen und Modelle eine ähnliche Leistung erbringen, dürfte bedeuten, dass beide sich auf ähnliche Erkennungsmuster verlassen. Die in »Frontiers in Psychology« veröffentlichte Studie zeigt aber auch, dass es möglich ist, Systeme zu entwickeln, die sofort emotionale Signale interpretieren können und so in einer Vielzahl von Situationen live ein intuitives Feedback geben. Denkbar ist das zum Beispiel im Bereich der Therapie oder Kommunikationstechnologien in anderen zwischenmenschlichen Zusammenhängen.