„Künstliche Intelligenz schafft falsche Bilder“
Das RWI in Essen veröffentlicht regelmäßig die „Unstatistik des Monats“. Heute geht es um Künstliche Intelligenz bei Porträtfotos.
Dazu schreibt das RWI – Leibniz-Institut für Wirtschaftsforschung e.V unter der Überschrift Künstliche Intelligenz schafft falsche Bilder:
„Sprich nur ein Wort und ich weiß, wie du aussiehst.“ Glaubt man aktuellen Blogbeiträgen, die im April in einigen sozialen Medien geteilt wurden, so kann ein KI-Algorithmus aus Youtube-Sprachaufnahmen die Gesichter der Sprechenden rekonstruieren – in „erschreckend exakten Porträts“. Dazu genügten der „Künstlichen Intelligenz“ (KI) schon wenige Sekunden einer Stimmaufnahme.
Erschreckend ist dabei in erster Linie die Überschätzung dessen, was ein solcher, schon 2019 erstmals vorgestellter Algorithmus wirklich leisten kann. Stutzig machen sollten dabei schon die rein qualitativen Aussagen, mit denen die Verfasser der Internet-Artikel die angebliche Präzision der KI-Anwendung beschreiben. So ist von „überraschend hoher Ähnlichkeit“ die Rede; es gebe „eine hohe Anzahl von Übereinstimmungen“ und lediglich „einige Mängel, bei denen ethnische Zugehörigkeit, Alter oder Geschlecht nicht mit der verwendeten Sprachprobe übereinstimmten“. Die deutschsprachigen Beiträge beziehen sich nicht auf die Originalstudie, sondern auf einen Artikel im Fotografie-Portal PetaPixel, der von einer „KI mit unheimlichen Ergebnissen“ schreibt. Doch was haben die Autoren dieser geheimnisvollen Studie „Speech2Face: Learning the Face Behind a Voice“ tatsächlich erreicht?
Letztlich haben sie einfach Korrelationen ermittelt, die zwischen dem zeitlichen Verlauf der Frequenzen einer Audioaufnahme von Stimmen und zwölf Merkmalen der zugehörigen Gesichter bestehen. Diese Korrelationen liegen zwischen 0,11 für die Kieferbreite und 0,38 für den nasalen Index, also das Verhältnis zwischen Nasenlänge und -breite. Das Quadrat des Korrelationskoeffizienten sagt, zu wie viel Prozent ein Merkmal durch ein anderes erklärt werden kann. Damit lässt sich zwischen 1,2 Prozent und 14,4 Prozent der Variation einzelner Gesichtsmerkmale durch die Variation in den Audioaufnahmen erklären. Auffällig ist dabei, dass elf von zwölf Merkmalen Nasen- und Mundpartie beschreiben (und damit eng miteinander zusammenhängen); nur eines bezieht sich auf den Augenabstand. Der Referenzartikel, den die Forscher bezüglich ihrer Gesichtsvermessung angeben, beschreibt jedenfalls erheblich mehr Merkmale. Damit stellt sich die Frage, ob nur ausgewählte Gesichtsmerkmale untersucht wurden (und warum) – oder ob weitere zwar untersucht, aber im Artikel einfach weggelassen wurden, womöglich weil sie nicht mit den Sprachmustern korrelierten.
Je klischeehafter die Vorlagen, desto ähnlicher die KI-Porträts
Im Weiteren wird schnell deutlich: Je stärker Gesichter und Sprache einem Klischee von Alter, Geschlecht und Ethnizität entsprechen, umso ähnlicher erscheint das künstlich erzeugte Porträt. Wahre Identitäten kann der Algorithmus nicht entdecken oder gar rekonstruieren. Das zeigt sich sehr deutlich in den quantitativen Bewertungen, die die KI-Forscher vornehmen. Das Erkennen des Geschlechts einer Person aus dem Frequenzspektrum der Stimme ist ja relativ einfach, und so kann der Algorithmus 94 Prozent der Männer und Frauen ihrem wahren Geschlecht zuordnen. Doch zeigt der Algorithmus bei Alter und Ethnizität hohe Fehlerquoten. Jüngere Sprecher werden eher etwas älter, ältere eher etwas jünger eingeschätzt – eine typische Tendenz zur Mitte. Die zeigt sich konkret darin, dass fast unabhängig von Alter der Algorithmus die meisten Sprecher zwischen 30 und 50 Jahre einordnet. Die relativ meisten Treffer, 35 Prozent, gibt es übrigens bei den 70+-Jährigen. Ganz junge Menschen unter 20 wurden in 100 Prozent der Fälle fälschlicherweise älter eingeschätzt.
39 Prozent der „Weißen“ und 50 Prozent der „Asiaten“ werden falsch zugeordnet, wobei letztere häufiger richtig klassifiziert werden, wenn sie chinesisch sprechen. Aber ganze 87 Prozent der „indischen“ und 89 Prozent der „schwarzen“ Gesichter sind falsch klassifiziert. Begründet wird das im Nachhinein mit einer nicht repräsentativen Stichprobe – also mit algorithmischer Verzerrung durch eine schlechte Datenauswahl. Ob die Ergebnisse mit besseren (eher dem Klischee entsprechenden?) Daten besser wären, sei dahingestellt.
Über die Trefferquote bei einer Kombination von Geschlecht, Alter und Ethnizität verlieren die Autoren kein Wort. Es bleibt also völlig offen, wie oft eine 30-jährige „schwarze“ Frau richtig als solche erkannt wird. Überschlägig geschätzt – 94 Prozent der Frauen, 11 Prozent der „Schwarzen“ und 32 Prozent der 30-Jährigen werden richtig erkannt – käme man bei Unabhängigkeit der Ergebnisse auf 94 Prozent * 11 Prozent * 32 Prozent = 3,3 Prozent. Das ist nicht sehr viel.
Deutschsprachige Berichterstattung geht nicht auf eth(n)ische Fragen ein
PetaPixel zitiert den Fotografen Tom Smith mit den Worten: „In gewisser Weise ist das System also ein bisschen wie dein rassistischer Onkel. Es glaubt, dass es die Rasse oder den ethnischen Hintergrund einer Person immer daran erkennen kann, wie sie klingt – aber das ist oft falsch.“ In den deutschsprachigen Beiträgen findet sich keine derart kritische Sichtweise. Spätestens damit ist klar, dass eine solche KI-Awendung erhebliche ethische Fragen aufwirft, auch wenn sie nur dazu dienen soll, „plausible Gesichter“ von Avataren – also virtueller Doppelgänger von Internetnutzern oder Computerspielern – automatisch zu erzeugen.
Es sind keine Fragen nach dem Datenschutz oder einem Eingriff in die Privatsphäre, obwohl die Autoren der Studie oder der Blogbeiträge diese erwähnen und sogleich entkräften. Denn dafür ist der Algorithmus schlicht untauglich. Es sind vielmehr Fragen, wie KI dazu beitragen kann, Stereotype zu konstruieren und damit Vorurteile über Menschen und schlimmstenfalls Diskriminierung zu verfestigen. Google soll im Jahr 2020 übrigens eine seiner Top-Forscherinnen gefeuert haben, weil sie genau solche Fragen gestellt haben soll. Das zeigt eindringlich, dass Daten und Algorithmen nicht neutral sind und dass eine statistische Grundbildung unerlässlich ist, um die möglichen Auswirkungen solcher Analysen auf unser aller Leben zu verstehen und uns entsprechend selbstbestimmt zu verhalten. Insbesondere Journalistinnen und Journalisten sollten sich in Sachen Statistik-Kompetenz so weit fit machen, dass sie reflektiert und nicht derart kritiklos über solche KI-Anwendungen berichten.
Hintergrund
Seit 2012 hinterfragen der Bochumer Ökonom und RWI-Vizepräsident Thomas Bauer, der Berliner Psychologe Gerd Gigerenzer und der Dortmunder Statistiker Walter Krämer jeden Monat publizierte Statistiken und deren Interpretation in den Medien. Seit 2018 ist zudem Katharina Schüller, Geschäftsleiterin und Gründerin von STAT-UP, Mitglied des Unstatistik-Teams. Die Unstatistik will zu einem sachlichen und vernünftigen Umgang mit Daten und Fakten beitragen.
Wer Interesse an der monatlich erscheinenden Unstatistik hat, kann sich in den E-Mail-Verteiler aufnehemn lassen.
Die Unstatistiken des Monats finden sich hier.