MC18 NOV17x2

Social Media Icons Shop 55

KI Fehler Haende 1 5000

 

Warum nur hat die generative KI so unfassbar große Probleme bei der richtigen Darstellung von Händen und Füßen? Ein Versuch, das zu verstehen. Es ist schon merkwürdig, in vielen Bereichen ist die Künstliche Intelligenz bereits recht gut, doch wenn es ausgerechnet um uns Menschen und die Generierung von Bildern geht, scheitert sie häufig an recht banalen Dingen wie unseren Händen und Füßen. Woran liegt das? Die KI erklärt oder entschuldigt sich selbst mit der Erklärung, dass in vielen der Bilder an denen sie lernt bzw. mit denen sie trainiert wurde, Finger und Hände selten unverdeckt und meist eher hinter irgend etwas versteckt, zu sehen sind. Aber ob das entschuldigt, dass die KI oft nicht einmal checkt, an welcher Hand der Daumen auf welcher Seite ist?

 

Falsche Vorstellungen?

Es ist merkwürdig, der grundlegende Aufbau, die menschliche Form ist eigentlich immer sehr ähnlich, insbesondere wenn es um Hände und Füße geht. Die KI könnte davon eigentlich einen klaren Satz von Regeln erstellen, welche festhalten wie ein menschlicher Körper so aufgebaut ist, welche Bewegungen die Gelenke zulassen und was man alles mit einer Hand anstellen kann. Trotzdem zeigt es sich, dass gerade die Hände ungeheuer kompflex in ihren Möglichkeiten sind und bisher zumindest die KI ziemlich herausfordern. Es gibt einfach ziemlich viele unterschiedliche Formen und Größen und vor allem extrem viele mögliche Positionen von Händen dank diverser Gelenke und feiner Fingerbewegungen.

Hier zeigt sich ein grundlegendes Problem der Künstlichen Intelligenz,- so intelligent ist sie dann eben doch nicht, denn eigentlich weiß sie nicht wie eine Hand aussieht und funktioniert. Hände können tausende unterschiedliche Positionen einnehmen, oft halten sie irgend etwas in der Hand, was die eigentlichen Finger etc. verdeckt und sie sehen je nach Blickwinkel völlig anders aus. Das ist etwas, womit übrigens auch bildende Künstler so ihre Probleme haben. Hände zu zeichnen gehört zu den großen Herausforderungen. 

Sie kann eben nur Muster erkennen und replizieren. Sie versucht nur, eine akzeptable neue Version zu erstellen, von dem wovon sie annimmt, dass wir Menschen es so erwarten würden. Deshalb ist für sie auch nicht gesichert, dass Hände fünf Finger besitzen und der Daumen immer innen liegt, wenn man auf die Oberseite der ausgestreckten Hand schaut. Auf Grund von antrainierten, allgemeinen Beispielen, wie Hände möglicherweise aussehen, versucht sie, diese Muster da anzuwenden, wo möglicherweise Hände vorhanden wären.

Die KI addiert Finger neben Finger, ohne zu erkennen ob sie den Ringfinger oder Mittelfinger generiert. Sie addiert einfach Finger bis es irgendwie für sie richtig aussieht. Dabei kommt es immer wieder vor, dass da nur vier oder auch sechs Finger nebeneinander gefügt werden und auch die Gelenke und Bewegungsmöglichkeiten dieser Finger sind nicht unbedingt anatomisch richtig. Die KI versteht eben nicht, wozu Finger da sind, wie sie funktionieren und weshalb sie wie gehalten werden. Sie erzeugt nur einen Anschein von Richtigkeit durch Vergleichen.

 

Falscher Abgleich

KI Fehler Fuss 1 5000

 

Für jede Abbildung von Händen muss die Künstliche Intelligenz sehr viele Hände miteinander vergleichen um daraus ein neues Bild zu generieren, welches dann diverse Eigenschaften der gespeicherten Abbildungen mitbringt. Da die Hände auf den Vergleichsbildern vermutlich jedes Mal in etwas anderen Positionen waren, sieht auch die neu genrierte Hand entsprechend merkwürdig aus. Im Grund genommen müssten den Trainingsgrundlagen Metadaten angeheftet werden, die genauer erklären, worum es sich handelt und welche Regeln diesen abgebildeten Objekten oder Händen zu Grunde liegen. Doch dazu wäre menschliche Handarbeit nötig, - angesichts der Millionen von Abbildungen ein Fass ohne Boden.

Ein Gesicht ist für die KI hingegen viel einfacher herzustellen, weil sich Augen, Nase und Mund doch in recht gleichbleibenden Abständen zueinander befinden und zumindest bei Fotos auch keine komplexen Muskelbewegungen simuliert werden müssen.

 

Spezifische Prompts

Die künstlich generierten Bilder weisen Artefakte durch Polydaktylie (Zusätzliche Finger oder Zehen) auf, weil die KI Probleme damit hat, die richtige Anzahl von Fingern oder Zehen zu zählen. Problematisch daran ist, dass die KI sich natürlich auch mit all den selbst erschaffenen Bildern generiert, auf denen sie bereits zu viele oder zu wenige Zehen genriert hatte,- ein Teufelskreis der Algorithmen.

Auch hier kann man durch die Befehlseingaben die Ergebnisse optimieren. Man kann die Fehleranfälligkeit allerdings durch das Prompten etwas einschränken, indem man etwa eingibt, dass man explizit fünf Finger oder fünf Zehen bestellt, dass man eine linke Hand, deren Oberseite oder Innenseite sehen möchte etc.

Vielfach waren die Menschen auch froh über diese Schwäche der KI, weil sich daran antürlich vorzüglich künstlich generierte Bilder erkennen ließen. Doch die KI entwickelt sich permanent weiter und inzwischen gelingen ihr Hände und Füße schon deutlich besser.

 

Kameraworkshop Banner 8 23 4000

Weitere neue Artikel

Warum die kleinen Plastiksteinchen aus Skandinavien so viele Stop-Motion Filme hervorgebracht haben...

Wie man vor CGI und Computeranimationen mit Modelltricks und Einzelbildern Fantasiewelten erschuf

Weshalb Kunsträuber im KIno schon immer eine wichtige Rolle eingenommen haben

Eigentlich überrascht es uns kaum noch, dass auch die Flatscreen Fernseher unser Verhalten präzise überwachen...

Warum nur hat die generative KI so große Probleme bei der Darstellung von Händen und Füßen? Ein Versuch, das zu verstehen...

Wie rasant sich die Technik rund um die Unterdrückung unerwünschter Tonsignale entwickelt hat, ist kaum zu glauben...

Wie die Slapstick-Komödien zu den erfolgreichsten frühen Genres der Stummfilmzeit wurden und bis heute nachwirken

So wie einst die Nagra den Filmton revolutionierte, hatten die britischen Mischpulte die Arbeit an Filmsets radikal verändert.

Es ist schon etwas besonderes, wenn der Titel eines Films aus seiner Handlung oder seinen Dialogen entspringt...

Unsere Welt, das Leben um uns herum bietet unzählige spannende Geschichten, die geradezu danach rufen, verfilmt zu werden...

Streaming und Filmkultur: Wie legale Streaming-Seiten die Film,- und Medienwelt verändert haben

Krise oder Transformation? Ein Plädoyer für neue Formen des Dokumentarischen

Sie ist eine der ältesten Techniken, um realistische Animationen zu schaffen: Die 1914 erfundene Rotoskopie.

In Filmabspännen stehen oft viele Producer. Was machen die eigentlich alle und welche Unterschiede gibt es?

Was können sie und was können sie nicht? Rückblenden als Bruchstellen der filmischen Illusion

Welche Weihnachtsfilme werden wohl in diesem Jahr auf uns herniederschneien? Wir haben Euch den ultimativen Timetable zusammengestellt....

Der Begriff klingt bescheiden. Was macht ihn so entscheidend für die Fähigkeiten und das Funktionieren von Technik?

In diesem Interview erzählt uns der Regisseur Kevin Koch ein paar Hintergründe zu der Entstehung seines Films "Prince de la Ville", der auf der FOFS 2025 gezeigt wurde.