Im letzten Monat hat Excire wieder einen Wettbewerb ausgerufen: Sende Deine Porträts ein und lass sie von unserer KI beurteilen. Der ist vor kurzem zu Ende gegangen und diesmal habe ich ein bisschen mitgemacht. Meine Rankings waren verheerend.
Das Titelbild war mein erster Versuch. Platz 537 von 1000.
OK, sehe ich ein, da ist nix Besonderes dran, einfach nur ein Porträt. Also mal ein ein bisschen abgefahrener:
Platz 990 von 1000. Also sind nur noch zehn “schlechter”. Das ist doch mal ein Erfolg. Also machen wir mit den düstern Porträts weiter:
Platz 605. Zu Dämonisch. Man sieht Poren auf der Haut, also lassen wir mal Porträt Professional drüber.
Und siehe da: Platz 598. Einfach Glubschaugen, Lippen und Augenbrauen ein bisschen aufpumpen und schon gibt’s mehr Punkte. Dass Lina auf einmal einen heftigen Silberblick hat- die KI juckt’s nicht.
Und was hat gewonnen: im Wesentlichen die üblichen Exotenporträts von “geschnitzten” Asiaten mit Hut. Und glattgebügelte Damen mit Plastikhaut. Warum das? Weil die KI mit genau solchen Bildern trainiert wurde. Wenn man der KI beibringt, dass asiatische Opas mit Hut top sind, dann wird sie die bevorzugen. Die KI macht ja nichts anderes, als ermitteln, inwiefern das zu beurteilende Material mit schon bekanntem und als “gut” getaggtem Material übereinstimmt. Das ist zum Beispiel bei der Beurteilung der Fertigungsqualität eines Werkstücks eine tolle Sache.
In der Fotografie sorgt das zuverlässig dafür, dass abweichende Ansätze ausgefiltert werden. In einer im Mainstream erstarrten Fotografenszene, die händeringend nach frischen Ideen sucht, ist dieser Ansatz verheerend. Es ist schlimm genug, dass Juroren bei Wettbewerben hauptsächlich die immer gleichen Photoshopfails prämieren, aber Juroren kann man austauschen. Bei einer KI wird sich der Mainstream selbstverstärken. Denn da sie einen bestimmten Bildstil bevorzugt, wird sie immer mehr vom selben Stoff erhalten und deshalb “denken”, das gehört so. Einer Ki wird nicht langweilig. Und sie kann auch keine Plagiate ausfiltern, weil sie ja gerade möglichst perfekte Plagiate hoch bewertet. Das ist ja der Sinn der Sache.
Allerdings kann man die Misere der Fotografie nicht der KI anlasten. Sie ist ein Symptom, nicht die Ursache. Die Ursache ist die Tatsache, dass Erfolg nicht die Innovatoren, sondern die Plagiatoren mit dem besseren Marketing haben. Das Smartphone. Nein, das hat nicht Apple erfunden. Sondern IBM. 15 Jahre vor dem Iphone. Bei der deutschen Fotomeisterschaft tauchten in diesem Jahr Bilder auf, die so von Lajos Kerestzes in den 80ern fotografiert wurden.
Es ist verständlich, wenn Manager immer noch bei Marktführern kaufen, weil noch niemand dafür gefeuert wurde, beim Marktführer zu kaufen. Auch wenn die Produkte erwiesenermaßen Mist sind. Aber was hindert Juroren daran, endlich mal innovative Bildansätze zu honorieren?
“What we have with these LLMs isn´t low-level intelligence but rather high-level applied statistics that creates the powerful illusion of low-level intelligence!”
John Gruber
Warum macht man sowas? Vor allem um Aufmerksamkeit zu schinden (“Mit KI” ist ja heuer dasselbe wie “aufregend und neu”, ungefähr so wie vor drei, vier Jahren “mit Blockchain”). Es geht ja nicht darum, das “beste” Porträtfoto zu identifizieren – woran wollte man das auch festmachen? –, sondern der Weg ist das Ziel. Wer’s braucht …
Die langfristige Problematik könnte zum Beispiel darin liegen, dass die Bilddatenbank bei deiner Suche nach bestimmten Verschlagwortungen dir nur noch die Bilder anzeigt, die nach Meinung der KI zeigenswert sind…bleibt nur zu hoffen, dass Excire und andere da die Kurve kriegen und nicht alles, was möglich wäre, implementieren.
Gruss
Landus
Bei Excire ist das natürlich im Augenblick eine Werbemaßnahme. Ich habe mich ja mit den Leuten von Excire darüber ausgetauscht, was das überhaupt soll. Es geht da um zwei Dinge: Einerseits eben dem User ein Tool an die Hand zu geben, mit dem er auf dem Desktop “massentaugliche” Bilder identifizieren und generieren kann, die dann auch von KI-Algorithmen außerhalb bevorzugt werden. Und eben auch Anfängern Hilfestellung zu geben, vom “knipsen” zu “besseren Bildern” zu kommen. Man weiß dort, dass KI mit innovativen Bildern nichts anfangen kann – und auch keine Bedeutung oder Bildsprachecodes erkennen kann. Aber mit einer gewissen Berechtigung sagt man dort, die meisten Fotografierenden sind noch lange nicht so weit, solche Techniken überhaupt einzusetzen. Und wenn es darum geht, Mainstream zu identifizieren, ist KI tatsächlich hilfreich. Gerade durch meine “Tests” zusammen mit Dagmar habe ich festgestellt, dass ich gar keinen “Mainstream” kann. Ich will immer Emotionen und Bedeutung in meine Fotos packen – damit kann Mainstream nichts anfangen. Das ist auch der Grund, dass immer wieder Leute behaupten, meine Bilder wären Mist. Sie sind kein “Mainstream”, kein Plastik. Wenn ich nun massentauglich und reich werden will, dann wäre so ein KI-Training gar nicht schlecht.
Wir wissen inzwischen aber auch, dass KI-Modelle katastrophal kaputtgehen, wenn sie zuviel mit KI-generierten Inhalten trainiert werden. Wenn die Leute also KI benutzen, um ihre Porträts zu “optimieren” (und Apps dafür gibt es ja zuhauf), und die KIs anschließend diese Porträts als Trainingsdaten verfüttert bekommen, ist der GAU vorprogrammiert. Und wenn man sich überlegt, was diese Trainingsläufe für die großen Modelle inzwischen an Rechenzeit bzw. Servermiete kosten, ist das mehr als nur ein bisschen ärgerlich.
Für OpenAI & Co. ist das vor allem ein potenzielles Problem, weil man KI-generierte Inhalte nicht verlässlich vom “Mainstream” der nicht KI-generierten Inhalte unterscheiden kann. Die KIs sind per Konstruktion ja gezielt darauf ausgerichtet, genau diesen Mainstream zu reproduzieren. Da das Internet schon jetzt mit KI-generiertem Material geflutet wird (nicht bloß Bilder, sondern vor allem auch Text – Microsoft zum Beispiel hat einen Großteil der Redakteure von “Microsoft Travel” durch generative KI ersetzt, was dann zu Schmankerln führt wie dass in der Erklärung zu Montréal auf die dortige Spezialität, den “Hamburger”, verwiesen wird, mitsamt dem Hinweis, dass es in Montréal die besten Hamburger bei McDonalds gibt) ist es bald wahrscheinlich nicht mehr möglich, einfach das ganze Internet abzuscannen und als Trainingseingabe für GPT-5 zu benutzen. Zumindest werden die armen Schweinderl in Kenia, deren Job es ist, die Ausgabe des Modells im Akkord handzuoptimieren, einen Haufen mehr Arbeit haben. What could possibly go wrong???
Ja, das ist ja eben der Trick an der Sache. Wir haben mit einer KI am heimischen Rechner ein Tool, das uns vorhersagen kann, wie die KI -Tools im Netz auf unsere Inhalte reagieren werden .Das kann man dazu nutzen, KI-Reichweite zu generieren und eben im Gegenteil, Inhalte zu generieren, die KI-Tools nicht mal mit der Beißzange anfassen. Also quasi unsichtbar bleiben.
Als die KI noch nicht so “omnipräsent” war, weil Manageridioten denken, sie könnten damit Personalkosten sparen, waren solche KI-Bildbewertungen eine alberne Spielerei. Mittlerweile kann das ernsthaft wichtig werden. Gerade um eben gegen die KI etwas in der Hand zu haben. Wie in den SF-Romanen. Die KI kann sich nur selbst ausrotten.
Es ist ja nicht so, dass die Nicht-Mainstream-Inhalte nicht trotzdem Teil des KI-Modells werden. Sie haben nur weitaus geringeres Gewicht, wenn es um die Ausgabe geht. Von daher ist “nicht mit der Beißzange anfassen” nicht ganz das richtige Bild. Auch Deine Inhalte werden von der KI aufgesaugt und verdaut, aber dann halt größtenteils ignoriert, wenn Ausgabe generiert werden soll, die sich am “Wahrscheinlichsten” orientiert. (Bei den Porträtfotos ist der Mainstream ja auch relativ leicht zu identifizieren. Anderswo ist es vielleicht viel wahrscheinlicher, dass Deine Fotos zumindest einen gewissen Einfluss auf die Ausgabe haben, etwa wenn jemand ein Bild von einem halbverfallenen Bauernhaus in der Oberpfalz generieren möchte.)
Es ist ja auch eine Sache, ob man die KI Bilder bewerten lässt (wo es letzten Endes nicht wirklich auf irgendwas ankommt), und eine ganz andere, sie mit lebenswichtigen Entscheidungen zu betrauen. KI-Modelle sind schlecht darin, “um die Ecke” zu denken, so dass der geniale Diagnostiker Dr. House vielleicht erst mal nicht um seine Stelle fürchten muss. Aber wenn die KI darüber befinden soll, ob man einen Kredit bekommt, und man nicht ins Schema des “Idealkunden” passt, dann wird es extra schwierig, dagegen anzukämpfen, was “der Computer” gesagt hat.
Die wirkliche Gefahr der KI liegt nicht darin, dass sie à la Skynet von sich aus die Menschheit unterjocht und vernichtet, sondern darin, dass wir den KI-produzierten Mumpitz für bare Münze nehmen und gegenüber dem bevorzugen, was Menschen auf die Beine stellen. Das heißt, letzten Endes liegt es an uns. Klar ist es viel billiger, die KI die Arbeit machen zu lassen, aber man muss trotzdem Kunden haben. Solange wir “menschlichen” Output bevorzugen und auch bereit sind, dafür ggf. etwas springen zu lassen, ist die Welt in Ordnung. Nur wenn unsere Bequemlichkeit und unser Geiz obsiegen, kann die KI gewinnen, aber daran sind wir dann auch selber (mit) schuld.
Beim Wettbewerb von Excire werden die Wettbewerbsbilder NICHT zum Training der KI genommen. Meine Bilder haben also keinerlei Einfluss.
Du musst Dich auch von der Vorstellung verabschieden, KI würde irgendwas “verdauen”. Die KI bekam bei Excire Bilder vorgesetzt und dazu eine Bewertung von Juroren. Die Aufgabe der KI war nun, zu “erraten”, was die höchst unterschiedlichen Geschmäcker der Juroren an einem bestimmten Bild gefunden haben. Da die KI aber nicht weiß, was sie da ankuckt, beuirteilt sie ein Bild aufgrund von erkannten Strukturen. Wenn in einem Bild die Strukturen A, B und C vorhanden sind, wurde das Bild von den Juroren höher bewertet als wenn noch eine Struktur D vorhanden ist. Kleines Problem dabei, die Erkennung der Struktur ist nicht zuverlässig. Das sieht man, wenn man die Erkennungsleistung von ExcireFoto ankuckt. Da sind etwa 20% der erkannten Objekte falsch. Je simpler das Bild aufgebaut ist, je weniger Objekte erkannt werden, desto leichter tut sich die KI damit.
Eine Lehrerin hat einmal gesagt, ChatGPT würde Texte abliefern, die man von einem normal begabten achtjährigen Schulkind erwarten würde. In dem Alter wird in der Schule im Wesentlichen nach festen Regeln reproduziert. Einem spielenden Achtjährigen ist die “KI” bereits haushoch unterlegen.
“Die KI bekam bei Excire Bilder vorgesetzt und dazu eine Bewertung von Juroren. Die Aufgabe der KI war nun, zu „erraten“, was die höchst unterschiedlichen Geschmäcker der Juroren an einem bestimmten Bild gefunden haben.”
OK, vielen Dank für den Hinweis – das ging aus dem ursprünglichen Text nicht hervor.
Diese Vorgehensweise ist aber typisch für den Umgang mit neuronalen Netzen (das, was man heute so “KI” nennt). Wenn Google Dich im CAPTCHA alle Bilder mit Autobussen anklicken lässt, passiert da auch nichts Anderes, da die Google-KI a priori so wenig über Autobusse wusste wie die von Excire über gute Porträts, nämlich nichts. Es geht nur darum, dass man die KI dazu kriegt, im Großen und Ganzen so zu entscheiden wie die Juroren, und dafür muss man sie genug mit Porträts und den dazugehörigen Einschätzungen der Juroren trainieren. Ob das nach dem Training dann mit anderen Bildern tatsächlich so klappt wie gewollt, muss sich zeigen; wenn nicht, hilft nur mehr Training, denn es gibt keine Möglichkeit, das Modell zu “debuggen”, indem man gezielt an irgendwelchen der Millionen Zahlen rumbastelt, aus denen es besteht. Und wenn schon die Juroren keinen gesteigerten Wert auf Kreativität und originelle Ideen legen, dann kann die KI nichts dafür, dass sie das auch nicht tut – so zu entscheiden wie die Juroren ist ja genau ihre Aufgabe.
“Eine Lehrerin hat einmal gesagt, ChatGPT würde Texte abliefern, die man von einem normal begabten achtjährigen Schulkind erwarten würde.”
Das ist keine wirkliche Überraschung, weil das wohl für den Großteil der Texte auf dem Internet gelten dürfte, mit denen ChatGPT trainiert wurde. Wer von uns schreibt schon wie Wittgenstein oder Adorno? Viele “Likes” bekäme man damit jedenfalls nicht.
“In dem Alter wird in der Schule im Wesentlichen nach festen Regeln reproduziert. Einem spielenden Achtjährigen ist die „KI“ bereits haushoch unterlegen.”
Man kann es nur immer, immer wieder sagen: Generative Sprachmodelle wie das von ChatGPT beruhen darauf, dass ein unvollständiger Text immer mit dem komplettiert wird, was laut der Trainingsdaten am wahrscheinlichsten als Nächstes kommt. Sie haben null Verständnis von der wirklichen Welt und scheitern schon an den simpelsten Aufgaben, die tatsächliches Denken benötigen. Normal begabte achtjährige Schulkinder lachen sich tot über den Kram, den ChatGPT produziert.
Mehr von ChatGPT & Co. zu erwarten als die sinngemäße Reproduktion bereits irgendwo existierenden Materials ist naiv, und sogar das klappt ja nur unzuverlässig. Man kann es den Sprachmodellen nicht mal vorwerfen, denn sie sind überhaupt nicht dafür gedacht, als universelle KI zu fungieren – es sind nur Wunschdenken und Hype, die ihnen das andichten. (Joseph Weizenbaums ELIZA läßt grüßen.)
Deswegen sollte eigentlich nicht der Begriff KI für das verwendet werden, was da gehypt wird.
Wie soll dann etwas heißen, was mal “in der Zukunft” vielleicht wirklich künstlich intelligent sein könnten?
Denn sowas wird möglicherweise kommen – Textverarbeitung durch LLMs ist eine Voraussetzung dafür.
LLMs aber sind keine KI im Sinne des Wortes.