Technikblog

KI schrumpft Köpfe

Googles Gesichtserkennnung einfach erklärt

Aus wenigen Pixel baut eine künstliche Intelligenz eine relativ scharfe Porträtaufnahme. Links sieht man die Eingangsinformation, mittig das Original, rechts, was der Algorithmus rekonstruierte. Dieses Rechenergebnis kommt dem echten Gesicht überraschend nahe. Bild: Google Brain.

Die Forscher von Google Brain entwickelten 2017 eine künstliche Intelligenz, die aus Bildern mit extrem schlechter Auflösung trotzdem ein Gesicht zu extrahiert. Erste Abhandlungen dazu wurden schon im Jahr zuvor veröffentlicht, Interessierte können die englische Erörterung in Google Drive nachlesen.

Diese Technik wurde 2019 weiter ausgebaut, jetzt ist auch der Weg in die andere Richtung möglich: Porträtfotos lassen sich auf die wesentlichen Merkmale reduzieren, aus denen wiederum ein Gesicht rekonstruiert wird. Die meisten unwichtigen Bildinformationen werden im Trainingsprozess entfernt, ohne dass die Qualität der Bilderzeugung leidet. Das ist letztlich dasselbe Verfahren wie bei der geläufigen JPG-Komprimierung, doch durchläuft sie trickreichere mathematische Prozesse. Das neuronalen Netzwerk von DeepMind komprimiert ein Bild mit 256 mal 256 Pixel auf eine Vektordarstellung mit 64 mal 64 Punkten (um das Vierfache verkleinert), die mit 32 mal 32 Pixel darstellbar ist (um das Achtfache verkleinert.

Wie im Bild rechts zu sehen besteht das Original nur aus wenigen Klötzchen, genauer gesagt sind es acht mal acht. Trotzdem kann der Algorithmus daraus aus ein scharfes, individuelles Gesicht entwickeln. Das Geheimnis besteht aus künstlicher Intelligenz in Verbindung mit großen Bilddatenbanken.

An der Rekonstruktion sind zwei neuronale Netze beteiligt:

Das eine vergleicht die Vorlage mit ursprünglich hochaufgelösten Porträts, die ebenfalls auf acht mal acht Pixel heruntergerechnet wurden. In diesem verkleinerten Archiv sucht das Netzwerk nach größtmöglichen Übereinstimmungen, also wie die hellen und dunklen Flecken verteilt sind, die auf Münder und Augenbrauen hindeuten.
Das zweite Netz ermittelt in den gefundenen Dateien die Lücken und fügt passende Pixel ein. Für diesen Abgleich zieht es die Bilddatenbank mit den höher aufgelösten Bildern hinzu.

Die Ergebnisse mit 32 mal 32 Pixel kommen den Originalen verblüffend nahe.

Die Resultate dienen nicht nur finsteren Zwecken: Vergleichbare Verfahren erlauben nicht nur, Gesichter zu erkennen, sondern auch, sie präzise zu skalieren oder Konturen zu schärfen.

FOTO HITS berichtet regelmäßig über die Fortschritte in der Gesichtserkennung, etwa:

10/2015: KI und Kunst. Bilderzeugung mittels Deep Dream und anderen Softwares
11/2015: In "Google Photos" die Gesichtserkennung de/aktivieren
12/2016: Gesichtserkennung mittels "True Key"
4/2018: Gefahren der Gesichtserkennung