Excire – KI oder so….

Seit ein paar Jahren ist scheint’s KI der letzte heiße Scheiß in der Fotobranche. Die E-M1X stellt den Fokus nach KI ein, die Hintergründe in Fotos werden über KI ausgetauscht, KI entscheidet welches Foto doll ist – und mit Excire gibt’s eine Fotoverwaltungssoftware, die die Verschlagwortung übernimmt.

Krass.

Da die Verschlagwortung von 750.000 Bildern ne Strafarbeit ist, habe ich mir gedacht, give it a try. Excire bietet eine Testversion an, also habe ich die auf meinem Notebook auf die dort liegenden 8119 Fotos losgelassen. SSD-Festplatte, sollte innerhalb eines überschaubaren Zeitraums fertig sein.

Generierte Schlagworte: Person, Hell, Sepia Töne, Säugetier, Tier, Katze, Haustier.

Vorteil: Die Software ist Multitaskingfähig, ist also während der Bilderanalyse bedienbar. Allerdings braucht sie. Für die 8k Bilder von der lokalen SSD eineinhalb Stunden. Bei 700.000 Bildern vom NAS dürfte man sich dann einen Monat Zeit nehmen.

OK, wenn die Verschlagwortung was taugt, rentiert sich sogar ein PC, der nichts anderes tut.

Generierte Schlagworte: Gesicht, Person, Ein Gesicht, Kunst, Kontrastreich, Farblos, Sitzend, Akt, Frontalansicht, Weiblich, Teenager/junger Erwachsener, Augen offen, Lächeln.

Leider ist die Erkennung im besten Fall lustig, aber manchmal sogar gefährlich. In jedem Fall schlicht unbrauchbar. Natürlich erkennt die Software in fast jedem Bild irgendwas richtig – aber was hilft es mir, 100.000 Bilder zu finden, mit „Ein Gesicht“. Im Endeffekt muss man doch wieder jedes Bild anfassen und von Hand verschlagworten.

Generierte Schlagwörter: Gesicht, Person, Ein Gesicht, Hell, Farbenfroh, Frontalansicht, Männlich, Erwachsener.
Generierte Schlagwörter: Person, Ein Gesicht, Frontalansicht, Weiblich, Augen geschlossen, Kind.

Überflüssig zu sagen, dass der „Mann“ im Tütü identisch mit dem „Kind“ ist.

Die künstliche Intelligenz ist noch nicht so weit. Nicht mal annähernd. Denn wenn nahezu bei jedem Motiv irgendwelcher Unsinn in den Schlagworten steht, dann ist die Datenqualität der Schlagworte so unterirdisch, dass man es besser lässt.

Da werden erwachsene Frauen zum „Kind“ und eine Sitzende zum „Akt“. Was passiert nun, wenn eine erwachsene Frau sitzt und gerade eine Rose in der Hand hält und man das Pech hat, das in schwarz/weiß zu knipsen? „Kind“ und „Akt“ und „Kunst“? Oder eher „Säugetier“?

Die Software kann aber auch Amphibien:

Generierte Schlagworte: Bokeh, Tier, Frosch, Amphibie.

Eine Frau mit einem Baseballschläger wird mit „Musik“ verschlagwortet, weil im Hintergrund ein Scheinwerfer steht. Immerhin werden Gitarren und Schlagzeuge erkannt. Einen Bass oder eine Geige erkennt die Software aber nicht.

Generierte Schlagworte: Gesicht, Person, Ein Gesicht, Dunkel, Ungesättigt, Sport, Profilansicht.

Ernsthaft: Würde ich nach diesem Bild jemals mit einem der obigen Schlagwörter suchen? Ich hab da mal eine ungesättigte Person beim Sport im Profil fotografiert?

Nein. Auch dieser Ansatz ist noch weit von irgendeiner Brauchbarkeit entfernt. Die 47 Euronen kann man sich sparen.

Und nein, bei unbelebten Motiven wird die Erkennung nicht besser. Bei einer Dachlandschaft erkennt die Software „Treppenhäuser“. Eine Topfpflanze ist ein Blumenstrauß, eine Dachrinne wird zum Baum, ein Gartenzaun zum „verlassenen Ort“, aber sie erkennt ein Fenster und sogar ein Stadttor, und Brille und Bart und, man glaubt’s nicht, Weintrauben.

Und ein Bild mit Dramatic Tone wird als „HDR extrem“ klassifiziert. Boxfotos waren aber wohl nicht bei den Fotos, die als Datenbasis verwendet wurden – Boxen wird nicht als Sport erkannt.

Ein letztes noch:

Generierte Schlagworte: Säugetier, Tier, Zebra, Pflanzenfresser.

Und das ganze im Hochformat:

Generierte Schlagwörter: Fenster, Architektur, Wand.

So schnell ist das Zebra ausgestorben.

8 Replies to “Excire – KI oder so….”

  1. Auch bei der Beschlagwortung von Videoarchiven und Audioarchiven ist KI der letzte Schrei. Viele unserer Kunden fragen, ob wir sowas nicht in die Digitalisierung einbinden können um die teuren Bearbeiter zu sparen, die sich alles ansehen oder anhören um dann kompetent zu beschlagworten.
    Ich habe noch kein System gesehen, das auch nur annähernd an die menschliche Leistung dran kommt. Selbst wenn man das Material vorher grob klassifiziert ist die Ausbeute sehr überschaubar. Gesichtserkennung funktioniert halbwegs, aber das war’s dann auch schon.
    Viele Situationen benötigen auch noch Kontext um korrekt interpretiert zu werden. Sowas benötigt extrem viele Daten zum Training der Software und auch Menschen, die die Daten bewerten damit das System lernen kann.
    Die meisten Lösungen erzeugen aktuell noch mehr Müll als brauchbare Informationen. Den Schwachsinn zu löschen ist mindestens so viel Aufwand wie gleich von Hand zu beschlagworten. Ich würde mir aktuell das Geld für KI Lösungen sparen.

  2. Mal als Frage, in Zeiten von Clearview und Konsorten, wissen wir überhaupt ob manche Software nicht die ein oder andere Hintertür (die offene) nutzt um Daten zu sammeln um damit Profit zu generieren. Vor Jahren schon hat ein bekannter Navisystemhersteller bei Updates Daten gesammelt um diese Behören zu veräussern.

  3. “KI” ist heutzutage ja die Abkürzung für “neuronale Netzwerke”. Die funktionieren bekanntermaßen so, dass man sie mit Beispielen “trainiert” und dann hofft, dass sie bei ähnlichen Fotos, die nicht Teil des Trainings-Datensatzes waren, auf dieselben Ergebnisse kommen. Garantiert ist das aber überhaupt nicht. Und leider hat man keine Möglichkeit, nachzuvollziehen, wie genau das neuronale Netzwerk im Einzelfall vom Bild zum Schlagwort kommt. Man kann darum auch nicht “debuggen” – man kann nur noch mehr trainieren und hoffen, dass die Probleme irgendwann weggehen. Da kommt dann auch mal ein Netzwerk raus, das Bilder von Afrikanern als “Gorilla” verschlagwortet (siehe Google) oder den Zebra-Pappkameraden als “Zebra” “identifiziert” (vor allem, wenn “Zebra-Pappkamerad” im Training nicht vorgekommen ist) und ähnliches.

    Zumal die Menge der möglichen (und interessanten) Schlagwörter die Kapazität der meisten Trainingsdatensätze überschreiten dürfte. Hierzulande würde man sich vielleicht wünschen, dass etwa ein Foto unserer Bundeskanzlerin nicht (nur) mit “Frau” verschlagwortet wird; wenn das Programm aber in den USA entwickelt wird, wäre ich mir über das Ergebnis nicht so sicher. Genauso würde man sich aus rein praktischen Erwägungen heraus vermutlich wünschen, dass Tante Frieda auf Fotos auch als “Tante Frieda” identifiziert wird – jedenfalls nachdem das Programm genug Fotos von Tante Frieda gesehen hat, an denen “Tante Frieda” dranstand –, aber das ist wahrscheinlich noch eine ganz andere Baustelle, da das Trainieren von neuronalen Netzwerken noch viel mehr Rechenkapazität erfordert als das Ablaufenlassen eines vortrainierten neuronalen Netzwerks (letzteres können dem Vernehmen nach heute schon Kameras).

    1. Das mit der Tante Frieda kann Picasa. Seit über zehn Jahren. Und zwar ziemlich gut und schnell. Leider hat sich die Technologie bei anderen Programmen noch nicht durchgesetzt. Es gibt zwar Verwaltungsprogramme mit Gesichtserkennung, aber deren Erkennungsraten sind entweder so grottig, dass sie unbrauchbar sind – oder sie verbrauchen dermaßen viel Rechenleistung, dass das Programm und der damit beschäftigte Rechner unbedienbar wird.

      1. Digikam (eine der tragfähigeren Optionen als Bilderverwaltungsprogramm für uns Linux-Benutzer) macht das wohl nicht schlecht. Zumindest von der gerade herausgekommenen Version 7 wird behauptet, dass ein neuer Algorithmus die Gesichtserkennung noch weiter verbessert. Allerdings bin ich noch nicht dazu gekommen, damit herumzuspielen.

  4. Ich hab mir vor ein paar Wochen, bei einer Rabattaktion, nach Docma Empfehlung das Programm gekauft. Ich fotografiere viel, ca. 400000 Bilder im Katalog, bin in der Verwaltung aber eher chaotisch und trotz photografischem Gedächtnis vergesse ich manche Bilder und meine Verschlagwortung erfolgte immer nur dann, wenn nach einer Fotosession schlechtes Wetter ist und als ich noch arbeitete, ehr nur sporadisch. Für Menschen wie mich ist das Programm eine Hilfe, wollt ich nur anmerken, falls jemand ähnlich strukturiert ist!
    Schöne Woche wünsch ich!

    1. Ich kenne von Dir ein Bild, bei dem ein Ozeandampfer hinter der Kulisse von Venedig vorbeifährt. Welche Schlagworte hat das Programm dafür gefunden? Würde man das Bild damit finden? Bei einem anderen Bild steckst Du in einer landwirtschaftlichen Maschine. Das wurde mit LiveComposite gemacht. Wie sind da die automatischen Schlagworte?

      1. Ich verwende keine automatischen Schlagworte, ich benütze nach der Initialisierung immer die Suchfunktion . Das Venedigbild, ich denke Du meinst die LZB bei der das Schiff als solches nicht erkennbar ist, fand ich sofort bei Eingabe von Wasser und Architektur. Das Live composite Bild bei dem ich mehrfach abgelichtet war und dann in dieser seltsamen Maschine steckte fand ich bei der Eingabe von Maschine und Person nicht. Ich habe jetzt mal die Schlagwortvergabe aktiviert bei dem Bild, das Ergebnis: Augen geschlossen, Bart, braun, Brille , Dunkel, Erwachsener, Frontalansicht, Gesicht < Person, Lächeln < Gesicht, Lightpainting, Männlich, Person, Profilansicht, schwarz, Zwei Gesichter. Auch bei der Personensuche mit Beispielbild findet er mich. Das war eigentlich auch der Hauptgrund, da ich sehr häufig Unternehmungen mit Freunden unternehme, z.B Bergwandern bei dem ich oft der Einzige bin der dabei fotografiert und hier die Suche nach Personen sehr gut funktioniert. Und die Freunde sich dann sehr freuen, wenn sie alte Bilder wo sie drauf sind bekommen., an die ich mich nie erinnert hätte.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert