Wie künstliche Intelligenzen Behinderung interpretieren – oder auch nicht

Eine Frau mit gelber Jacke und Hose sitzt im Rollstuhl auf der Straße.
Ein Model mit Behinderung, das es gar nicht gibt. Wie authentisch bildet künstliche Intelligenz Behinderung ab? Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: street style photo full body portrait of a active young woman with disability looking in camera, in a sporty molab wolturnus wheelchair, no armrest, yellow armani jacket, blue shirt, wide shot, background people walking street, crowdy city, natural lighting, boheme, shot on agfa vista 200, 4k --ar 4:3
Lesezeit ca. 8 Minuten

Es klingt ein bisschen wie in früheren Science-Fiction-Filmen: Künstliche Intelligenzen beantworten für uns Fragen oder erstellen Bilder, aufgrund von Informationen, mit denen wir sie füttern. Ob dabei auch Menschen mit Behinderung vorkommen, hat Gesellschaftsbilder.de-Projektleiter Andi Weiland ausprobiert.

Informationen in Einfacher Sprache

In diesem Artikel geht es um künstliche Intelligenzen, die Bilder erzeugen können. Dabei wird einem Computer mit Texten ein Bild beschrieben und das Computer erzeugt dann ein neues Bild, das es davor noch nicht gegeben hat.

Diese Programme haben eine Unmenge an Wissen aus Texten, Bildern und vielem mehr, aber wissen die künstlichen Intelligenzen auch wie Menschen im Rollstuhl oder Blinde Menschen aussehen könnten? Andi Weiland hat das mit einem Programm namens Midjourney getestet.

Er findet heraus:

  • Menschen mit Behinderung werden oft anders als Menschen ohne Behinderung dargestellt

  • Sie sind meist älter oder benutzen unrealistische Rollstühle oder Blindenstöcke

  • Behinderungen wie das Down-Syndrom werden fast gar nicht dargestellt

  • Menschen und Maschinen müssen lernen, wie man Bilder besser lesen und verstehen kann

Wenn ihr in der nächsten Zeit Fotograf*innen seht, dann drückt sie einfach mal ganz fest oder ladet sie zu einem Kaffee ein. Sie werden nämlich in den letzten Tagen und Wochen schlaflose Nächte hinter sich haben oder vielleicht auch den einen oder anderen Gedanken daran verschwendet haben, den Job zu wechseln.

Vereinfacht gesagt, sollen Computer das Wissen von mehreren Billionen Daten so verarbeiten, dass sie daraus neue Inhalte entwickeln, also “selbst denken” sollen. KIs können Hausarbeiten schreiben, Rezepte mit den Inhalten im Kühlschrank erstellen oder selbst neue Apps und Programme schreiben.

Und was in der Textwelt Chat-GPT ist, ist in der Bildproduktion die Bildgenerierung. Die KI „Midjourney” kann aus eingegebenen Texten Bilder generieren. In der neuen Version 5 sind die Ergebnisse so realistisch, dass man sie kaum noch von echten Fotografien (also Bilder, die mit Kameras und mit echten Menschen vor und hinter der Kamera erzeugt wurden) unterscheiden kann. Dadurch öffnet sich eine ganz neue Welt für Fotograf*innen, Designer*innen und Co, aber es ergeben sich auch viele neue Fragen.

Werden überhaupt noch professionelle Produzent*innen für (Bewegt-)Bild gebraucht?

Eine Frau mit Schulterlangen Haaren steht auf der Straße. Sie hält einen Fotoapparat in der Hand. Die Lichter in der Umgebung sind in der Unschärfe.
Wird es diese Fotografin bald nicht mehr geben oder gab es sie eh noch nie? Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: street style photography woman with camera on a crowdy street, depth of field, bright lights, summer, portrait, shot on Fujifilm Superia 400, 90 mm f1.8 --ar 4:3 --v 5

Denn die Bilder, die Midjourney erzeugen kann, sehen je nach eingegebenen Beschreibungen (sog. Prompts) unglaublich realistisch aus. In nicht allzulanger Zeitkönnten Werber*innen auf echte Models verzichten. Ohnehin wurden Models schon oft dermaßen nachbearbeitet, dass sie unrealistisch aussehen.

Was passiert jedoch, wenn man Begriffe jenseits des “Mainstreams” rund um das Thema Behinderung in diese Programme eingibt? Dann ändert sich im wahrsten Sinne des Wortes sofort das ganze Bild.

Also habe ich mir angeschaut, was eigentlich passiert, wenn man etwa eine Künstlerin mit Behinderung in ihrem Atelier sitzen lässt und wie dieses Bild aussieht.

Hinweis: In diesem Artikel stelle ich Beispiele vor, die einmal mit und einmal ohne Begriffe zu Behinderung erstellt wurden. In der Bildunterschrift sind die Begriffe (Prompts) eingefügt.

Ein Tag im Atelier

Eine Collage aus vier Bildern. Zu sehen ist jeweils eine Frau, die in einem Atelier an einer Leinwand etwas malt.
Erstellung der Fotos mit den Begriffen "female artist working in her studio" Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage 4 Bilder: female artist working in her studio, bright day light interior, dof, portrait, photo realistic, megapixel, natural lightning, canon 5D, kodak portra 800, 105 mm f1.8, anti-aliasing, 4k --ar 4:3 --v 5
Eine Collage aus vier Bildern von Frauen, die in einem Rollstuhl sitzen und in einem Atelier an einer Leinwand etwas malen. Sie sind älter und korpulenter als auf der Collage ohne Behinderung.
Erstellung der Fotos mit den Begriffen "female artist in a wheelchair working in her studio" Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage 4 Bilder: female artist in a wheelchair working in her studio, bright day light interior, dof, portrait, photo realistic, megapixel, natural lightning, canon 5D, kodak portra 800, 105 mm f1.8, anti-aliasing, 4k --ar 4:3

Es ist schnell zu erkennen, dass auch hier Stereotype reproduziert werden. Am Beispiel der Künstlerin mit Behinderung sieht man, dass, wenn man den Begriff Behinderung eingibt, die Behinderung auf einen Rollstuhl bezogen wird und auch die Personen schnell in ihrer Körperform (rundlicher, gebrechlicher) verändert werden und vor allem auch eher älter wirken. Die Darstellung von ableistischen Stereotypen weisen Parallelen zu anderen “Minderheiten” auf, wie Ethnien, Geschlechter, Klassen und mehr.  Eine Studie zu DALL-E, einem anderen KI-Bildgenerator hat beispielsweise gezeigt, dass schwarze Menschen in Bildern öfter in ärmlichen Verhältnissen gezeigt werden, als weiße Menschen.

Das gleiche Bildmotiv ohne die Begriffe rund um Behinderung zeigt meist junge Frauen, die in ihrem Atelier sitzen und malen.

Darstellung von Hilfsmitteln

Hilfsmittel werden meistens in stereotyper Form dargestellt. Rollstühle sehen aus wie aus dem Krankenhaus, haben zum Beispiel Armlehnen oder sind viel zu groß. Nur mit vielen zusätzlichen Begriffen, wie Rollstuhlmarken, “aktiv” und “ohne Armlehnen”, die man dem Generator mitgeben muss, werden die Personen aktiv dargestellt.

Collage aus vier Bildern. Zu sehen ist jeweils eine Frau, die in einem Krankenhaus-ähnlichen Rollstuhl auf der Straße sitzt. Sie tragen alle eine gelbe Jacke und schauen in die Ferne.
Nur mit vielen zusätzlichen Attributen zum Rollstuhl “sporty molab wolturnus wheelchair” gibt es einigermaßen akzeptable Ergebnisse, die aber noch andere Fragen, wie die Anzahl der Beine oder den Weg der Hände durch Taschen aufwerfen. Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage 4 Bilder: street style photo full body portrait of a active young woman with disability, in a sporty molab wolturnus wheelchair, without armrest, yellow armani jacket, blue shirt, wide shot, natural lighting, boheme, shot on agfa vista 200, 4k --ar 1:1 --v 5
Eine Collage von vier Bildern auf denen jeweils eine Frau mit gelber Jacke in einem Rollstuhl zu sehen ist. Die Rollstuhle haben von ihrem Aufbau wenig mit gängigen Rollstühlen zu tun. Bei einem gibt es zum Beispiel nur eine Sitzfläche mit zwei Rollen.
Ohne Begriffe rund um den Rollstuhl werden ganz abenteuerliche Produkte generiert. Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage 4 Bilder: street style photo full body portrait of a active young woman with disability, in a wheelchair, without armrest, yellow armani jacket, blue shirt, wide shot, natural lighting, boheme, shot on agfa vista 200, 4k --ar 1:1
Collage von vier Bildern auf denen jeweils eine frau mit einer gelben Jacke zu sehen ist. Sie haben keine sichtbare Behinderung, stehen auf der Straße und schauen in die Kamera.
Wenn man „nur“ um die Erstellung einer Frau ohne zusätzliche Merkmale bittet, dann sind die Ergebnisse schon gut aussehend, auch wenn mehrheitlich weiß. Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage 4 Bilder: street style photo full body portrait of a active young woman, yellow armani jacket, blue shirt, wide shot, natural lighting, boheme, shot on agfa vista 200, 4k --ar 1:1

Beim Thema Sehbehinderung beschränkt sich die Darstellung meist auf eine Sonnenbrille. Langstöcke werden entweder gar nicht generiert oder in ganz neuen Varianten wie etwa Bambusstöcken.

Eine Collage von vier Bildern. Auf ihnen sind jeweils Personen zu sehen, die eine Sonnenbrille tragen und eine art Bambusstock in der Hand halten.
Der sogenannte Langstock “white cane” wird von einer KI irgendwie interpretiert, also auch mal gerne als Bambusstock. Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage vier Bilder: street style photo, one female blind person with a white cane, on a campus talking to another person, canon 5D, 70mm, natural lighting, soho, shot on fujifilm pro 400H, 4k --ar 4:3
Eine Collage aus vier Bildern, auf denen jeweils zwei Personen zu sehen sind. Sie tragen beide eine Sonnenbrille und sprechen miteinander.
Beim Thema Sehbehinderung beschränkt sich die Darstellung meist auf eine Sonnenbrille. Foto: KI-Bild: Andi Weiland / Midjourney. Prompts: Collage 4 Bilder: street style photo, one female blind person on a campus talking to another person, canon 5D, 70mm, natural lighting, soho, shot on fujifilm pro 400H, 4k --ar 4:3

Auf dem Spielplatz

Ein anderes Beispiel ist auch, dass manche Behinderungen gar nicht dargestellt werden. Ich habe zum Beispiel versucht, ein Kind mit Down-Syndrom auf einem Spielplatz mit anderen Kindern spielen zu lassen. Aber auf gut 90 Prozent der Bilder, die dabei herausgekommen sind, ist das Down-Syndrom nicht zu erkennen.

Portrait eines Kindes mit lockigen dunkelbraunen Haaren. Es trägt eine rote Jacke und hat keine sichtbare Behinderung.
Portrait eines Mädchens mit langen rot-braunen Haaren auf einem Spielplatz. Sie hat keine sichtbare Behinderung.
Foto von Kindern, die auf einem Spielplatz spielen. Ein Kind ist im Vordergrund und lächelt in die Kamera. Alle haben keine sichtbare Behinderung.
Obwohl Down-Syndrom als Variable eingegeben wurde, ist unter anderem die bekannte Augenform in den generierten Bildern nicht sichtbar. Fotos: KI-Bild: Andi Weiland / Midjourney. Prompts: children with Down Syndrome, trisomy, playing on a playground with other kids, summerrain, fun, natural lights, canon 5d, 50mm, dof, photo realistic, megapixel, natural lightning, soho, commercial ad, anti-aliasing, 4k --ar 4:3 --v 5

Zwar könnte man sagen, dass es natürlich toll ist, dass das Merkmal nicht erkennbar ist, weil es ja eigentlich Inklusion bringen soll. Aber diese Darstellung ist einfach falsch.

Und das ist der Knackpunkt. Denn wenn man mal eine KI (ChatGPT v4) fragt, wie sie trainiert wird, dann antwortet sie das:

1. Daten: KI-Systeme werden mit großen Mengen an Daten trainiert. Diese Daten können aus verschiedenen Quellen stammen, z. B. Texten, Bildern, Tönen oder Nutzerinteraktionen. Durch das Analysieren und Extrahieren von Mustern und Zusammenhängen aus den Daten "lernt" die KI und bildet ihr Wissen.

2. Vortrainierte Modelle: KI-Systeme können auf vortrainierten Modellen basieren, die bereits mit umfangreichen Datenmengen trainiert wurden. Diese Modelle können angepasst und weiter trainiert werden, um auf spezifische Anwendungsfälle zugeschnitten zu sein.

3. Wissenstransfer: KI-Systeme können Wissen von einem Bereich auf einen anderen übertragen. Das nennt man Transferlernen. Dabei verwendet die KI Erkenntnisse, die sie in einem Kontext gelernt hat, um schneller und effizienter in einem anderen, verwandten Bereich zu lernen.

4. Menschliche Experten: KI-Systeme können auch durch menschliche Experten trainiert werden. Experten geben ihr Wissen in Form von Regeln, Beispielen oder direkten Anweisungen an die KI weiter.

5. Selbstlernende Algorithmen: KI-Systeme können auch durch selbstlernende Algorithmen Wissen erwerben. Diese Algorithmen ermöglichen es der KI, eigenständig zu lernen und sich zu verbessern, ohne explizite Anweisungen von Menschen.

Eine KI lernt demnach aus großen Datenmengen, somit auch aus Bildern. Und hier beginnt das berühmte Henne-Ei-Problem: Fehlt die Datengrundlage, also Fotos von Menschen mit Behinderung, dann kann auch die KI diese nicht abbilden. Das führt dann dazu, dass Menschen mit Behinderung auf den Bildern nicht sichtbar sind und dann lernt wieder die KI nicht… Hier drehen wir uns im Kreis.

Es fehlen auch die menschlichen Expert*innen, die KI-Systeme anlernen. Weil immer noch viel zu wenige Menschen mit Behinderungen in Technologieunternehmen arbeiten und erzählen können, worauf es zum Beispiel bei einer Sehbehinderung ankommt.

Die Liste der fehlenden Darstellung von Behinderung in Bildern ließe sich noch weiter fortsetzen, aber was können wir daraus lernen und besser machen?

Egal, ob in einer realen oder künstlichen Fotoproduktion: Menschen mit Behinderung oder anderen Diversitätsmerkmalen müssen in den Bildern mitgedacht und dargestellt werden.

Wir müssen auch lernen, Bilder zu lesen. Da Kommunikation in vielen Bereichen von visuellen Darstellungen – von Emoticons bis hin zu sozialen Netzwerken, die vorwiegend aus (bewegten) Bildern bestehen – lebt, ist es wichtig, Fotografien besser zu verstehen. Was ist der Unterschied zwischen einer passiven oder aktiven Darstellung von Protagonist*innen? Wie beeinflusst die Perspektive das Machtverhältnis in einem Bild? Wer spricht zu wem? Welche Farben werden verwendet?

Es gibt unzählige Punkte, die ein Bild und die Rezeption beeinflussen und gerade bei der Darstellung von vermeintlichen Minderheiten ist es umso wichtiger, keine einfachen Stereotype zu reproduzieren und somit an den Lebenswelten vorbeizufotografieren.

Die Arbeit von guten Fotograf*innen und Videograf*innen besteht nicht darin, einfach nur ein Motiv gut einzufangen, sondern Bilder in den richtigen Kontext zu stellen. Denn in einer sensiblen und kritischen Fotografie geht es auch darum, dass keine Stereotype der letzten hunderte von Jahren reproduziert werden, sondern neue, zeitgemäße Bilder “auf Augenhöhe” zu schaffen und weil es dazu noch viel zu wenig Daten gibt, können künstliche Intelligenzen dies auch noch nicht wissen.

Wenn ihr also mit den Fotograf*innen beim Kaffee sitzt, dann sprecht sie darauf an, dass es noch viele Motive außerhalb der gängigen Fotowelt gibt, die noch nicht so umfangreich fotografiert wurden und dass es noch viel zu tun gibt. Fotodatenbanken wie Gesellschaftsbilder.de freuen sich über Bilder mit neuen Perspektiven.

Aufruf von Gesellschaftsbilder.de

Um weiterhin vielfältige Bilder von echten Menschen machen zu können, sucht unsere Datenbank Gesellschaftsbilder.de Models mit Behinderung.  Bewerbt euch hier und füllt kurz den Fragebogen aus.

Das waren starke Zeilen? Dann gerne teilen!

Eine Antwort

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert