Vor ein paar Wochen war es so weit, der erste Kunstwettbewerb in den USA wurde von einem von KI erzeugten Bild gewonnen. Der Einreicher, der da auch gar kein Hehl daraus gemacht hat, dass das Bild von midjourney stammte erntete außer dem Preis natürlich einen veritablen Shitstorm und einige Fotoportale verbieten mittlerweile das Hochladen von Ki-generierten Bildern. Wer in der Diskussion am Laufenden ist, kennt das alles.
Nun arbeite ich ja mit einer KI, die meine Bilder verschlagwortet (Excire) und dachte mir, probiere ich doch mal aus, ob das auch rückwärts geht. Also habe ich mir meine Rocksdorfer Sensenfrau gesucht:
Die von Excire gefundene Stichwörter: Architektur, Augen geschlossen, Ein Gesicht, Erwachsener, Frontalansicht, Gesicht, Person, Sepia Töne, Verlassener Ort. Da habe ich mir gleich gedacht . das wird wohl eher nix, was auch nur ähnlich wird. Also habe ich das Ganze auf Englisch formuliert, denn die KI von midjourney will eine englische Beschreibung: A woman with black cloak and a scythe in a hallway of a ruin backlit with fog. Man bekommt dann immer vier kleine Vorschauen präsentiert, von denen man wiederum Varianten erzeugen lassen kann – und wenn man dann glaubt, fertig zu sein, lässt man das Bild in Vollauflösung berechnen. Eine der Vorschauen kuckte so aus:
Nach ein bisschen rumprobieren kam das hier raus:
Eine Kollegin bemängelte die falsche Perspektive, also alles noch mal mit dem Parameter Photorealistic:
Hmtja. Gruselig ist es ja schon. Aber anscheinend gibt es im Herkunftsland der zugrundeliegenden Bilder nur gotische Ruinen. Und das mit der Sense…..
Nachdem mir gesagt wurde, Nebel sei total easy zu simulieren, ich solle doch mal was klares nehmen. Machen wir:
a woman with a cup of tea and scythe sits on a wooden floor and leans on a grandfather clock against black background photorealistic
Die erste Auswahl ist schon mal lustig:
Mit ’ner Sense kann die KI anscheinend nicht wirklich was anfangen. Ich vermute, sie denkt dabei eher an Skythen. Was wiederum einen Rückschluss darauf zulässt, mit welchem Bildmaterial die trainiert wurde.
Das ist zumindest grob was Ähnliches. Und die Tasse Tee kann man akzeptieren. Natürlich stimmt der Lichteinfall nicht, das vierte Bein des Tisches fehlt, die Dame sitzt im Schneidersitz auf was auch immer, Grob würde ich sagen, da kommt das hier hin:
Und den Schnaps brauch ich jetzt…. (Ja, die Füße sind abgeschnitten, das Bild war ursprünglich 16:9, da war’s egal. )
Die KI flickt Bildelemente aus verschlagworteten Bildern zusammen und wurschtelt dann irgendwelche Hintergründe dazu, wenn sie keine Anweisungen zum Hintergrund bekommen hat. Sie kann nur Bildstile erzeugen, die es schon in ausreichender Anzahl gab. Das System ist also nicht „intelligent“ sondern „reproduktiv“.
Es gibt durchaus die Möglichkeit, mit einer entsprechenden Anzahl von Stichworten in vielen Versuchen ganz ansehnliche Bilder rauszubekommen. Sie sehen zwar immer künstlich aus, aber das ist teilweise schon beeindruckend. Nur: wenn ich genau weiß, was ich will, dann ist die bessere Möglichkeit halt immer, das Bild dann auch genau so in der Kamera zu machen. Von der Sensenfrau im Gang gibt es mehrere Dutzend Vorversionen, bei denen immer irgendwas nicht gepasst hat. Nebel, Licht, Gesichtsausdruck. Trotzdem war das Foto in fünfzehn Minuten im Kasten. Für ein solches Foto mit „KI“-Unterstützung sitzt man vermutlich einen Tag am Rechner und kämpft mit dem.
Was KI anrichtet, kann man sich derzeit auf MSN ansehen. Dort hat Microsoft seine Redakteure durch „KI“ ersetzt und berichtet jetzt über Meerjungfrauen und Yetis… Leider ist der klägliche Rest der Journalistensimulanten nicht fähig, den Unsinn auszusortieren.
Aber bei den Leuten, die mit Stock-Fotografie ihr Geld verdienen, ist bestimmt schon teilweise Panik ausgebrochen. Leg noch mal 5 Jahre oben drauf, in denen die Algorithmen verfeinert werden und die KIs mit mehr Material gefüttert werden. Dann kommen allmählich Bilder raus, die auch für die Bebilderung von Artikeln und so geeignet sind.
Ich hoffe nur, dass von unserer realen Welt noch was übrig bleibt zum Leben.
Ich bin beruflich immer wieder mit der Anforderung konfrontiert, archivarische Beschlagwortung zu geringen Preisen zu realisieren. Bisher hat keines der Systeme praxistaugliche Ergebnisse gebracht. Entweder die KI liefert so viel Schrott, dass man die Treffer kaum erkennt und dann manuell filtern muss, aber das ist mindestens so viel Arbeit wie gleich sauber beschlagworten oder die KI liefert exakte Daten, die man aber auf anderem Weg einfacher bekommt oder bereits hat. Ich halte es für sehr schwierig eine KI zu erstellen und zu trainieren, die wirlich kreativ ist und nicht nur aus existierenden Bausteinen etwas nqch gelernten Regeln zusammenstellt.
Das vierte Bild von oben (https://pen-and-tell.de/wp-content/uploads/2022/12/progress_image_100_82598258-ba21-45b4-bf3c-f40f21f5f40d-1.webp) finde ich gar nicht schlecht. Gerade, weil da soviel nicht stimmt. Das erinnert mich an Illustrationen in älteren Kinder-/Jugendbüchern mit Gruselgeschichten u.ä., und an Herr der Ringe. Das Bild würde ich mir evtl. sogar an die Wand hängen. Allerdings nicht besonders groß, und nicht allzu prominent.
Heute morgen per Zufall gelesen:
https://www.blick.ch/people-tv/international/fotograf-outet-sich-als-ki-betrueger-diese-menschen-gibt-es-gar-nicht-id18348563.html
Da braucht’s kein modernes Zeug dazu…. https://this-person-does-not-exist.com/de
Wir haben seinerzeit hier: https://pen-and-tell.de/2020/04/mft-to-handy-adapter/ eine Website verlinkt: https://ing.blue/ Alle Mitarbeiter in dieser Website sind damals per KI generiert worden.