Es klingt ein bisschen wie in früheren Science-Fiction-Filmen: Künstliche Intelligenzen beantworten für uns Fragen oder erstellen Bilder, aufgrund von Informationen, mit denen wir sie füttern. Ob dabei auch Menschen mit Behinderung vorkommen, hat Gesellschaftsbilder.de-Projektleiter Andi Weiland ausprobiert.
Informationen in Einfacher Sprache
In diesem Artikel geht es um künstliche Intelligenzen, die Bilder erzeugen können. Dabei wird einem Computer mit Texten ein Bild beschrieben und das Computer erzeugt dann ein neues Bild, das es davor noch nicht gegeben hat.
Diese Programme haben eine Unmenge an Wissen aus Texten, Bildern und vielem mehr, aber wissen die künstlichen Intelligenzen auch wie Menschen im Rollstuhl oder Blinde Menschen aussehen könnten? Andi Weiland hat das mit einem Programm namens Midjourney getestet.
Er findet heraus:
-
Menschen mit Behinderung werden oft anders als Menschen ohne Behinderung dargestellt
-
Sie sind meist älter oder benutzen unrealistische Rollstühle oder Blindenstöcke
-
Behinderungen wie das Down-Syndrom werden fast gar nicht dargestellt
-
Menschen und Maschinen müssen lernen, wie man Bilder besser lesen und verstehen kann
Wenn ihr in der nächsten Zeit Fotograf*innen seht, dann drückt sie einfach mal ganz fest oder ladet sie zu einem Kaffee ein. Sie werden nämlich in den letzten Tagen und Wochen schlaflose Nächte hinter sich haben oder vielleicht auch den einen oder anderen Gedanken daran verschwendet haben, den Job zu wechseln.
Vereinfacht gesagt, sollen Computer das Wissen von mehreren Billionen Daten so verarbeiten, dass sie daraus neue Inhalte entwickeln, also “selbst denken” sollen. KIs können Hausarbeiten schreiben, Rezepte mit den Inhalten im Kühlschrank erstellen oder selbst neue Apps und Programme schreiben.
Und was in der Textwelt Chat-GPT ist, ist in der Bildproduktion die Bildgenerierung. Die KI „Midjourney” kann aus eingegebenen Texten Bilder generieren. In der neuen Version 5 sind die Ergebnisse so realistisch, dass man sie kaum noch von echten Fotografien (also Bilder, die mit Kameras und mit echten Menschen vor und hinter der Kamera erzeugt wurden) unterscheiden kann. Dadurch öffnet sich eine ganz neue Welt für Fotograf*innen, Designer*innen und Co, aber es ergeben sich auch viele neue Fragen.
Werden überhaupt noch professionelle Produzent*innen für (Bewegt-)Bild gebraucht?
Denn die Bilder, die Midjourney erzeugen kann, sehen je nach eingegebenen Beschreibungen (sog. Prompts) unglaublich realistisch aus. In nicht allzulanger Zeitkönnten Werber*innen auf echte Models verzichten. Ohnehin wurden Models schon oft dermaßen nachbearbeitet, dass sie unrealistisch aussehen.
Was passiert jedoch, wenn man Begriffe jenseits des “Mainstreams” rund um das Thema Behinderung in diese Programme eingibt? Dann ändert sich im wahrsten Sinne des Wortes sofort das ganze Bild.
Also habe ich mir angeschaut, was eigentlich passiert, wenn man etwa eine Künstlerin mit Behinderung in ihrem Atelier sitzen lässt und wie dieses Bild aussieht.
Hinweis: In diesem Artikel stelle ich Beispiele vor, die einmal mit und einmal ohne Begriffe zu Behinderung erstellt wurden. In der Bildunterschrift sind die Begriffe (Prompts) eingefügt.
Ein Tag im Atelier
Es ist schnell zu erkennen, dass auch hier Stereotype reproduziert werden. Am Beispiel der Künstlerin mit Behinderung sieht man, dass, wenn man den Begriff Behinderung eingibt, die Behinderung auf einen Rollstuhl bezogen wird und auch die Personen schnell in ihrer Körperform (rundlicher, gebrechlicher) verändert werden und vor allem auch eher älter wirken. Die Darstellung von ableistischen Stereotypen weisen Parallelen zu anderen “Minderheiten” auf, wie Ethnien, Geschlechter, Klassen und mehr. Eine Studie zu DALL-E, einem anderen KI-Bildgenerator hat beispielsweise gezeigt, dass schwarze Menschen in Bildern öfter in ärmlichen Verhältnissen gezeigt werden, als weiße Menschen.
Das gleiche Bildmotiv ohne die Begriffe rund um Behinderung zeigt meist junge Frauen, die in ihrem Atelier sitzen und malen.
Darstellung von Hilfsmitteln
Hilfsmittel werden meistens in stereotyper Form dargestellt. Rollstühle sehen aus wie aus dem Krankenhaus, haben zum Beispiel Armlehnen oder sind viel zu groß. Nur mit vielen zusätzlichen Begriffen, wie Rollstuhlmarken, “aktiv” und “ohne Armlehnen”, die man dem Generator mitgeben muss, werden die Personen aktiv dargestellt.
Beim Thema Sehbehinderung beschränkt sich die Darstellung meist auf eine Sonnenbrille. Langstöcke werden entweder gar nicht generiert oder in ganz neuen Varianten wie etwa Bambusstöcken.
Auf dem Spielplatz
Ein anderes Beispiel ist auch, dass manche Behinderungen gar nicht dargestellt werden. Ich habe zum Beispiel versucht, ein Kind mit Down-Syndrom auf einem Spielplatz mit anderen Kindern spielen zu lassen. Aber auf gut 90 Prozent der Bilder, die dabei herausgekommen sind, ist das Down-Syndrom nicht zu erkennen.
Zwar könnte man sagen, dass es natürlich toll ist, dass das Merkmal nicht erkennbar ist, weil es ja eigentlich Inklusion bringen soll. Aber diese Darstellung ist einfach falsch.
Und das ist der Knackpunkt. Denn wenn man mal eine KI (ChatGPT v4) fragt, wie sie trainiert wird, dann antwortet sie das:
1. Daten: KI-Systeme werden mit großen Mengen an Daten trainiert. Diese Daten können aus verschiedenen Quellen stammen, z. B. Texten, Bildern, Tönen oder Nutzerinteraktionen. Durch das Analysieren und Extrahieren von Mustern und Zusammenhängen aus den Daten "lernt" die KI und bildet ihr Wissen.
2. Vortrainierte Modelle: KI-Systeme können auf vortrainierten Modellen basieren, die bereits mit umfangreichen Datenmengen trainiert wurden. Diese Modelle können angepasst und weiter trainiert werden, um auf spezifische Anwendungsfälle zugeschnitten zu sein.
3. Wissenstransfer: KI-Systeme können Wissen von einem Bereich auf einen anderen übertragen. Das nennt man Transferlernen. Dabei verwendet die KI Erkenntnisse, die sie in einem Kontext gelernt hat, um schneller und effizienter in einem anderen, verwandten Bereich zu lernen.
4. Menschliche Experten: KI-Systeme können auch durch menschliche Experten trainiert werden. Experten geben ihr Wissen in Form von Regeln, Beispielen oder direkten Anweisungen an die KI weiter.
5. Selbstlernende Algorithmen: KI-Systeme können auch durch selbstlernende Algorithmen Wissen erwerben. Diese Algorithmen ermöglichen es der KI, eigenständig zu lernen und sich zu verbessern, ohne explizite Anweisungen von Menschen.
Eine KI lernt demnach aus großen Datenmengen, somit auch aus Bildern. Und hier beginnt das berühmte Henne-Ei-Problem: Fehlt die Datengrundlage, also Fotos von Menschen mit Behinderung, dann kann auch die KI diese nicht abbilden. Das führt dann dazu, dass Menschen mit Behinderung auf den Bildern nicht sichtbar sind und dann lernt wieder die KI nicht… Hier drehen wir uns im Kreis.
Es fehlen auch die menschlichen Expert*innen, die KI-Systeme anlernen. Weil immer noch viel zu wenige Menschen mit Behinderungen in Technologieunternehmen arbeiten und erzählen können, worauf es zum Beispiel bei einer Sehbehinderung ankommt.
Die Liste der fehlenden Darstellung von Behinderung in Bildern ließe sich noch weiter fortsetzen, aber was können wir daraus lernen und besser machen?
Egal, ob in einer realen oder künstlichen Fotoproduktion: Menschen mit Behinderung oder anderen Diversitätsmerkmalen müssen in den Bildern mitgedacht und dargestellt werden.
Wir müssen auch lernen, Bilder zu lesen. Da Kommunikation in vielen Bereichen von visuellen Darstellungen – von Emoticons bis hin zu sozialen Netzwerken, die vorwiegend aus (bewegten) Bildern bestehen – lebt, ist es wichtig, Fotografien besser zu verstehen. Was ist der Unterschied zwischen einer passiven oder aktiven Darstellung von Protagonist*innen? Wie beeinflusst die Perspektive das Machtverhältnis in einem Bild? Wer spricht zu wem? Welche Farben werden verwendet?
Es gibt unzählige Punkte, die ein Bild und die Rezeption beeinflussen und gerade bei der Darstellung von vermeintlichen Minderheiten ist es umso wichtiger, keine einfachen Stereotype zu reproduzieren und somit an den Lebenswelten vorbeizufotografieren.
Die Arbeit von guten Fotograf*innen und Videograf*innen besteht nicht darin, einfach nur ein Motiv gut einzufangen, sondern Bilder in den richtigen Kontext zu stellen. Denn in einer sensiblen und kritischen Fotografie geht es auch darum, dass keine Stereotype der letzten hunderte von Jahren reproduziert werden, sondern neue, zeitgemäße Bilder “auf Augenhöhe” zu schaffen und weil es dazu noch viel zu wenig Daten gibt, können künstliche Intelligenzen dies auch noch nicht wissen.
Wenn ihr also mit den Fotograf*innen beim Kaffee sitzt, dann sprecht sie darauf an, dass es noch viele Motive außerhalb der gängigen Fotowelt gibt, die noch nicht so umfangreich fotografiert wurden und dass es noch viel zu tun gibt. Fotodatenbanken wie Gesellschaftsbilder.de freuen sich über Bilder mit neuen Perspektiven.
Aufruf von Gesellschaftsbilder.de
Um weiterhin vielfältige Bilder von echten Menschen machen zu können, sucht unsere Datenbank Gesellschaftsbilder.de Models mit Behinderung. Bewerbt euch hier und füllt kurz den Fragebogen aus.
Eine Antwort
Sehr interessante Text zum Thema künstlicher Forschung.