
Warum nur hat die generative KI so unfassbar große Probleme bei der richtigen Darstellung von Händen und Füßen? Ein Versuch, das zu verstehen. Es ist schon merkwürdig, in vielen Bereichen ist die Künstliche Intelligenz bereits recht gut, doch wenn es ausgerechnet um uns Menschen und die Generierung von Bildern geht, scheitert sie häufig an recht banalen Dingen wie unseren Händen und Füßen. Woran liegt das? Die KI erklärt oder entschuldigt sich selbst mit der Erklärung, dass in vielen der Bilder an denen sie lernt bzw. mit denen sie trainiert wurde, Finger und Hände selten unverdeckt und meist eher hinter irgend etwas versteckt, zu sehen sind. Aber ob das entschuldigt, dass die KI oft nicht einmal checkt, an welcher Hand der Daumen auf welcher Seite ist?
Falsche Vorstellungen?
Es ist merkwürdig, der grundlegende Aufbau, die menschliche Form ist eigentlich immer sehr ähnlich, insbesondere wenn es um Hände und Füße geht. Die KI könnte davon eigentlich einen klaren Satz von Regeln erstellen, welche festhalten wie ein menschlicher Körper so aufgebaut ist, welche Bewegungen die Gelenke zulassen und was man alles mit einer Hand anstellen kann. Trotzdem zeigt es sich, dass gerade die Hände ungeheuer kompflex in ihren Möglichkeiten sind und bisher zumindest die KI ziemlich herausfordern. Es gibt einfach ziemlich viele unterschiedliche Formen und Größen und vor allem extrem viele mögliche Positionen von Händen dank diverser Gelenke und feiner Fingerbewegungen.
Hier zeigt sich ein grundlegendes Problem der Künstlichen Intelligenz,- so intelligent ist sie dann eben doch nicht, denn eigentlich weiß sie nicht wie eine Hand aussieht und funktioniert. Hände können tausende unterschiedliche Positionen einnehmen, oft halten sie irgend etwas in der Hand, was die eigentlichen Finger etc. verdeckt und sie sehen je nach Blickwinkel völlig anders aus. Das ist etwas, womit übrigens auch bildende Künstler so ihre Probleme haben. Hände zu zeichnen gehört zu den großen Herausforderungen.
Sie kann eben nur Muster erkennen und replizieren. Sie versucht nur, eine akzeptable neue Version zu erstellen, von dem wovon sie annimmt, dass wir Menschen es so erwarten würden. Deshalb ist für sie auch nicht gesichert, dass Hände fünf Finger besitzen und der Daumen immer innen liegt, wenn man auf die Oberseite der ausgestreckten Hand schaut. Auf Grund von antrainierten, allgemeinen Beispielen, wie Hände möglicherweise aussehen, versucht sie, diese Muster da anzuwenden, wo möglicherweise Hände vorhanden wären.
Die KI addiert Finger neben Finger, ohne zu erkennen ob sie den Ringfinger oder Mittelfinger generiert. Sie addiert einfach Finger bis es irgendwie für sie richtig aussieht. Dabei kommt es immer wieder vor, dass da nur vier oder auch sechs Finger nebeneinander gefügt werden und auch die Gelenke und Bewegungsmöglichkeiten dieser Finger sind nicht unbedingt anatomisch richtig. Die KI versteht eben nicht, wozu Finger da sind, wie sie funktionieren und weshalb sie wie gehalten werden. Sie erzeugt nur einen Anschein von Richtigkeit durch Vergleichen.
Falscher Abgleich

Für jede Abbildung von Händen muss die Künstliche Intelligenz sehr viele Hände miteinander vergleichen um daraus ein neues Bild zu generieren, welches dann diverse Eigenschaften der gespeicherten Abbildungen mitbringt. Da die Hände auf den Vergleichsbildern vermutlich jedes Mal in etwas anderen Positionen waren, sieht auch die neu genrierte Hand entsprechend merkwürdig aus. Im Grund genommen müssten den Trainingsgrundlagen Metadaten angeheftet werden, die genauer erklären, worum es sich handelt und welche Regeln diesen abgebildeten Objekten oder Händen zu Grunde liegen. Doch dazu wäre menschliche Handarbeit nötig, - angesichts der Millionen von Abbildungen ein Fass ohne Boden.
Ein Gesicht ist für die KI hingegen viel einfacher herzustellen, weil sich Augen, Nase und Mund doch in recht gleichbleibenden Abständen zueinander befinden und zumindest bei Fotos auch keine komplexen Muskelbewegungen simuliert werden müssen.
Spezifische Prompts
Die künstlich generierten Bilder weisen Artefakte durch Polydaktylie (Zusätzliche Finger oder Zehen) auf, weil die KI Probleme damit hat, die richtige Anzahl von Fingern oder Zehen zu zählen. Problematisch daran ist, dass die KI sich natürlich auch mit all den selbst erschaffenen Bildern generiert, auf denen sie bereits zu viele oder zu wenige Zehen genriert hatte,- ein Teufelskreis der Algorithmen.
Auch hier kann man durch die Befehlseingaben die Ergebnisse optimieren. Man kann die Fehleranfälligkeit allerdings durch das Prompten etwas einschränken, indem man etwa eingibt, dass man explizit fünf Finger oder fünf Zehen bestellt, dass man eine linke Hand, deren Oberseite oder Innenseite sehen möchte etc.
Vielfach waren die Menschen auch froh über diese Schwäche der KI, weil sich daran antürlich vorzüglich künstlich generierte Bilder erkennen ließen. Doch die KI entwickelt sich permanent weiter und inzwischen gelingen ihr Hände und Füße schon deutlich besser.

