Nachdem ich jetzt in den letzten Wochen einen auf Excire-Fanboy gemacht habe, habe ich jetzt mal zwei KIs gegeneinander antreten lassen. Excire Foto und Stable Diffusion. Beiden habe ich identische, englische Vorgaben gegeben, Stable Diffusion sollte Bilder generieren, Excire Foto passende Bilder aus meinem Bestand aussuchen. Excire Foto hat dabei die Länge der Strings vorgegeben, denn bei Stable Diffusion kann man weit mehr Begriffe eingeben. Mit dem Bild oben im Kopf habe ich folgenden String eingegeben:
Narrow alley, half-timbered houses, woman sits on steps, black and white
Stable Diffusion hat dazu folgendes erzeugt:
Okay, die gute Frau sieht ein bisschen deplaziert aus und ihre Hände sind, wie üblich, gruselig, aber ansonsten ist das schon mal gar nicht schlecht. Mit etwas mehr Text (Woman sits on the steps of a door) kommt das hier raus:
Was mich geflasht hat, bis zu dem Zeitpunkt, in dem ich mir Gesicht und Hände der Frau angesehen habe. Und ja, Elsässer Fachwerk kann Stable Diffusion nicht. Excire liefert dagegen jede Menge Fachwerk. Aber nicht mit Frau. Und wenn, dann nicht in schwarz/weiß. Und wenn Frau und Gasse, dann sitzt die Frau nicht. Und wenn sie sitzt, dann nicht vor einer Tür. Und wenn vor einer Tür, dann nicht in einer Gasse. Das Bild, das ich bei der Beschreibung im Kopf hatte, wurde nicht gefunden, weil die Frau da ganz hinten wohl nicht als bildwichtig erkannt wurde. Aber immerhin kam das hier auf einem der ersten Plätze:
Enge Gasse, Frau, Stufen vor der Tür, Fachwerk, alles da. Sie muss sich nur noch hinsetzen….
Erster Versuch: Ich würde sagen, unentschieden. SD scheitert vor allem an der gruseligen Qualität der Personen.
Als nächstes meinen Klassiker: Woman with a scythe in a dark cloak in a long vaulted corridor with fog.
Die KI ist anscheinend felsenfest der Meinung, ein „Scythe“ sei eine Art ultralanger Spargelstecher. Was macht Excire draus?
Bingo. Das hier ist der erste Treffer. Gefolgt von 80 weiteren. (Ich habe ganz schön viele Frauen mit Sensen fotografiert. Muss ich mir Sorgen machen?)
2:1 für Excire.
Woman in peasant clothes stands at a window behind a bed and looks out.
Die Hände fasern wieder aus, aber ansonsten: Bett, Frau, Fenster, alles da, sie kuckt nur nicht hinaus. Was findet Excire?
Fenster sind da, Blickrichtung passt, Bett – kann man diskutieren – stehen? Nope. Was hatte ich erwartet? Das hier:
Merke, unscharfe Sachen mag die KI nicht. Da SD immerhin ein Bett geliefert hat – wenn auch erst im zweiten Anlauf -, machen wir ein 2:2.
Nachdem wir jetzt ausreichend gesehen haben, dass die KI keine Menschen kann (Ich hatte mir ein Gruppenbild einer Band erzeugen lassen, ein Bandmitglied hatte drei Arme und Beine – sicher der Schlagzeuger) probieren wir es mit Landschaft:
Landscape with mountains, tree, alpine hut and dramatic clouds
und Excire?
Das ist natürlich Dramatic Tone, aber Excire hat die Normalversion gefunden – ich habe sie nur jetzt wegen der Show nachentwickelt. Und natürlich habe ich jede Menge weitere Hütten mit Bergen und dramatischen Wolken. Aber viele davon sind in Norwegen, das hätte nicht gegolten…. Das hier ist Südtirol.
Also? 3:2 für Excire.
Nochmal: ich habe jetzt nicht die Qualität der Bilder verglichen. sondern nur die Leistung der KI aus einem gegebenen String einen Bildinhalt zu extrahieren. Eines der größten Problem dabei ist, dass die KI nur Wahrscheinlichkeiten berechnet. Wenn ich SD zweihundertmal den gleichen String vorsetze, generiert die KI mir 200 verschiedene Bilder. Wenn ich Excire diesen String vorsetze, findet er mir 200 mehr oder weniger passende Bilder, ich muss nur noch aussuchen. Oder auch 500 Bilder – wie ich halt will. Vorteil bei Excire: Ich weiß grob, dass die Bilder keine technischen Fehler haben (zermatschte Hände, ungerade Anzahl Extremitäten, falsche Lichtführung), ich muss also nicht jedes Bild mit der Lupe nach Mist durchsuchen.
Und – und das ist ein ernsthaftes Problem – ich habe bei meinen eigenen Bildern kein Copyright-Problem. Denn auch SD hat sich beim Trainieren der KI kurzerhand bedient. Bei Pinterest (die sich ja selber bedienen), bei Blogger (bin ich froh, dass ich die meisten Inhalte aus meinem Blog dort rausgenommen habe) bei WordPress, DeviantArt, Flickr und bei Wikipedia. Und das sind nur die größten Quellen. Der bayerische Rundfunk hat mal die Quellen von SD unter die Lupe genommen und dort jede Menge private und sensible Daten gefunden. Wenn ich also KI-generierte Bilder verwende, kann es mir passieren, dass mir jemand, wenn ich Pech habe nach Drucklegung, gewaltig an den Karren fährt.
Also: KI als Retrieval-Software: Goil. Ki als Kreativbolzen? Fail. Obwohl die Behandlung der Objekterkennung durchaus ähnlich ist.
„Kunden, sie sich für Sensen und ganz lange Messer interessierten, interessierten sich auch für Fleckensalz Blut und Rotwein“
Schön auch, dass die Bilder aus dieser KI durch die Bank aussehen, wie aus einem Bilderbuch. Oder ist das dem ‚diffus‘ im Namen geschuldet, dass da ein Abfall wie bei 0.95 ganz nah dran bei rauskommt ?
Sorgen machen wegen der Sensenfrau? Nööö. Die läuft sogar denen ins Bild, die dein Studio leihweise benützen. Das ist ganz normal. Kein Grund zur Beunruhigung 😉