Im Gespräch mit Sabine Süsstrunk

Professor Sabine Süsstrunk, Leiterin des Labors für Bilder und visuelle Darstellung an der Fakultät für Computer- und Kommunikationswissenschaften der EPFL (Lausanne), hat mit Peter Schuffelen über Stand und Zukunft der digitalen Bildoptimierung gesprochen.

Beispiel für Deep Learning

digit: Frau Prof. Süsstrunk, Sie forschen zu digitalen Bildverbesserungstechnologien. Wie müssen wir uns Ihre Arbeit vorstellen?

Sabine Süsstrunk: Meine Forschung bewegt sich an den Schnittstellen von Informatik, also angewandter Mathematik, Physik – Stichwort: Sensoren und Optiken – und menschlicher Wahrnehmung.

Die Art und Weise, wie wir Menschen Eindrücke wahrnehmen und verarbeiten, dient Ihnen als Inspirationsquelle?

SS: Ja, viele von den Algorithmen, die wir entwickeln, sind inspiriert von der menschlichen Wahrnehmung. Wir nutzen dazu eine Art Netzhautverarbeitungsmodell, das der Tatsache Rechnung trägt, dass wir fast 100 Millionen Fotorezeptoren besitzen, aber nur eine Million Neuronen für die Informationsweiterleitung an das Gehirn. Das zwingt uns zur Selektion auf relevante Informationen – ein Prozess, mit dem sich Maschinen deutlich schwerer tun als wir.

Wie weit sind Sie bisher vorangekommen mit diesem bionischen, also von der Natur inspirierten Ansatz?

SS: Wenn ein Mensch eine beliebige Szene sieht, kann er sich hinterher immer an etwas Bestimmtes erinnern, je nach Intensität und Dauer lässt sich der Sehvorgang dabei in drei Stufen unterteilen. Auf der untersten nimmt man nur Kontraste und Farben wahr, bei der mittleren kommt die Objekterkennung, also z. B. „Hund“, „Katze“ oder „Mensch“, hinzu. Interessant ist in diesem Zusammenhang, dass wir ein Areal in der Großhirnrinde besitzen, das sich nur mit der visuellen Erfassung von Gesichtern beschäftigt. Die erste Stufe können wir schon lange maschinell erfassen, die zweite, also die Objekterkennung, haben wir mit der künstlichen Intelligenz inzwischen gut im Griff. Die höchste Stufe, die semantische Reaktionen umfasst, können wir aktuell noch nicht abbilden. Das ist aber wünschenswert.

Welcher praktische Nutzen ergäbe sich daraus?

SS: Ein Anwendungsszenario wäre: Eine Software wählt automatisch die zehn besten Bilder aus, und zwar diejenigen, die Ihnen ganz persönlich am besten gefallen. Grundsätzlich lassen sich Systeme, die Informationen über Ihre Vorlieben haben, per „supervised learning“ so trainieren. Was auf Basis von Computional Asthetics, also des maschinellen Lernens anhand von Best-Practice-Bldern, schon länger möglich ist, ist die Optimierung mit Blick auf das, was 90 % der Menschen gefällt. Dazu zählen einfache Regeln wie Kontrastoptimierungen, die Konzentration auf das Objekt im Bild, das 99 % der Betrachter als das wichtigste empfinden, oder Gestaltungsregeln wie der Goldene Schnitt. Unsere ersten Systeme haben wir übrigens anhand klassischer Gemälde geschult.

Zumindest in der freien Fotografie sind Bilder, die den klassischen Gestaltungsregeln und einem technischen Qualitätsoptimum zuwiderlaufen, oft die interessantesten. Wie können Sie so etwas mit Algorithmen abbilden?

SS: Bislang gar nicht. Die künstliche Intelligenz kann die Empfindung der Massen gut nachbilden, die Regelbrecher aber nicht abholen. Das wird – Gott sei Dank – auch noch eine ganze Weile so bleiben.

Wo können denn Ihre Lösungen im professionellen Bereich hilfreich sein?

SS: Etwa beim Editieren und Archivieren: Algorithmen können aus 1.000 Aufnahmen die 100 besten Bilder herauskristallisieren, aus denen der Fotograf dann die 20 Top-Shots aussuchen kann. Auch Online-Plattformen wie der Fotocommunity-Marktplatz EyeEm nutzen diese Art von Softwares. Die Flut an Bildern ist ja nur mittels Maschinen zu bewältigen – auch wenn ganz am Ende da jemand sitzt, der das kuratiert.

Ein Einsatz wäre demnach auch bei Fotowettbewerben mit Abertausenden Einsendungen denkbar. Wie kann man sicher sein, dass …


Lesen Sie weiter in