IPTC, Crawler und KI

Ja, ich weiß, die KI-Artikel nerven. Ehrlich gesagt, mich auch. Aber es tut sich an dieser Front gerade sehr viel und einiges davon ist für uns Fotografen relevant.

Die IPTC (International Press Telecommunications Council) hat einen Leitfaden herausgebracht, der die verschiedenen Möglichkeiten auflistet, mit denen man verhindern kann, dass der eigene Content von KI-Firmen zum Training abgegriffen wird.

Tatsächlich geht es ja gar nicht darum, die KI zu “trainieren” – also im Sinne von “viel Gewichte stemmen macht Muskeln” – sondern es geht darum, Wissen zu kopieren. Content zu klauen. Klingt jetzt hart, aber es ist nichts anderes. Die KI “lernt” aus dem Webcontent und erzählt dann irgendwelchen Dummfug weil die KI ja nichts kapiert sondern nur wiederkäut. Manchmal stimmt das aus purem Zufall, meistens – bei den aktuellen Modellen in 70% der Fälle – eben nicht. Und die KI spuckt dann das Ergebnis vermeintlich für lau aus und der “Lehrer”, dessen Wissen für umsonst abgezogen wurde, darf verhungern.

Da die KI-Betreiber bis heute keinerlei Interesse erkennen lassen, die Ersteller des Content finanziell zu beteiligen sondern sich mit ganzen Armeen von Rechtsanwälten dagegen wehren, ist es nur vernünftig, die KI vom eigenen Content auszusperren.

In Deutschland ist es schon mal sehr wichtig, eine klare Botschaft auf seiner Website unterzubringen, dass man jeder Nutzung der Daten durch automatisierte Datenanalyse widerspricht. Es gab bereits Prozesse, in denen das wichtig wurde.

Dann natürlich in den Meta-Tags einen Copyright-Hinweis unterbringen. Das habe ich ja bereits mal angesprochen. Ich tue das bei den Bildern hier normalerweise nicht, weil ich die Bilder meistens ohne EXIFs veröffentliche, allerdings eben auch in stark reduzierter Auflösung.

Die IPTC schlägt noch vor, die Crawler auf IP-Ebene zu sperren, was natürlich nur dann funktioniert, wenn man a) die Adressbereiche kennt und b) überhaupt die Möglichkeit hat, IP-Sperren durchzuführen.

Die vierte Lösung ist die robots.txt. Die habe ich hier auch schon mal thematisiert und fisk hat das dann netterweise ergänzt. Wer nicht selber in der robots.txt rummachen will und WordPress verwendet, für den gibt es (mindestens) zwei Plugins: Ai Scrape Protect und Block AI Crawlers.

Die IPTC hat noch acht weitere Tipps. Aber wenn man die ersten umgesetzt hat, hat man schon mal nen ganzen Schwung geschafft. Ich habe auch schon ne Nachricht bekommen, dass man pen-and-tell nicht einfach en bloc von einer KI analysieren lassen kann, sondern man jede einzelne Seite aufrufen muss. ich hoffe, das war keine Fehlinformation.

Damit das nicht so trocken ist, hier noch eine Demonstration, wie toll KI funktioniert. Ich habe sie gebeten, mir eine Zusammenfassung von Bertold Brechts “Die Judenbuche” zu geben. Dies war die Antwort:

Bertolt Brechts “Die Judenbuche” erzählt die Geschichte von Mord und Rache im 18. Jahrhundert im Schwarzwald. Im Mittelpunkt steht der Konflikt zwischen dem Bauern Knechtges und dem reichen, skrupellosen Brauer, der Knechtges betrügerisch um sein Eigentum bringt. In seiner Verzweiflung begeht Knechtges einen Mord an dem Brauer. Um seine Tat zu vertuschen, versteckt er die Leiche in der “Judenbuche”, einem alten Baum.
Der Roman konzentriert sich nicht nur auf den Mord selbst, sondern auch auf die langfristigen Folgen und die Auswirkungen auf die beteiligten Personen und die Dorfgemeinschaft. Die Geschichte wird aus verschiedenen Perspektiven erzählt, was die Komplexität der Ereignisse und die moralische Ambivalenz der Charaktere unterstreicht. Brecht hinterfragt die gängigen Vorstellungen von Gerechtigkeit und Schuld und zeigt, wie soziale Ungerechtigkeit und Machtmissbrauch zu Gewalt führen können. Die “Judenbuche” selbst wird zum Symbol für das Verborgene, das Geheimnis und die unausgesprochenen Wahrheiten der Gesellschaft. Letztendlich ist die Geschichte eine Auseinandersetzung mit Themen wie Gerechtigkeit, Rache, Schuld und der Macht der sozialen Strukturen.

Man lernt immer noch dazu. Sowohl Annette von Droste-Hülshoff als auch Bertold Brecht und meine Deutschlehrerin dürften gerade hochtourig im Grab rotieren.

Aber um der Wahrheit die Ehre zu geben: das hat “Aria” verbrochen, die KI von Opera. ChatGPT korrigiert korrekt auf Droste Hülshoff und kann auch die Inhaltsangabe aus der Wikipedia korrekt wiedergeben.

4 Replies to “IPTC, Crawler und KI”

  1. Tiptop 🙂
    Dann aus gegebenem Anlass noch einmal meine Liste für die .htaccess und Apache-Server, falls einer der AI-Lymmel meint, so eine robots.txt ignorieren zu müssen

    # [USER AGENT]

    RewriteCond %{HTTP_USER_AGENT} ([a-z0-9]{2000,}) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (<|%0a|%0d|%27|%3c|%3e|%00|0x00|\\\x22) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (ahrefs|archiver|curl|libwww-perl|pycurl|scan) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (oppo\sa33|(c99|php|web)shell|site((.){0,2})copier) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (base64_decode|bin/bash|disconnect|eval|unserializ) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (acapbot|acoonbot|alexibot|asterias|attackbot|awario|backdor|becomebot|binlar|blackwidow|blekkobot|blex|blowfish|bullseye|bunnys|butterfly|careerbot|casper|censysinspect) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (checkpriv|cheesebot|cherrypick|chinaclaw|choppy|claudebot|clshttp|cmsworld|copernic|copyrightcheck|cosmos|crawlergo|crescent|datacha|(\b)demon(\b)|diavol|discobot|dittospyder) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (dotbot|dotnetdotcom|dumbot|econtext|emailcollector|emailsiphon|emailwolf|eolasbot|eventures|extract|eyenetie|feedfinder|flaming|flashget|flicky|foobot|fuck) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (g00g1e|getright|gigabot|go-ahead-got|gozilla|grabnet|grafula|harvest|heritrix|httracks?|icarus6j|imagesiftbot|jetbot|jetcar|jikespider|kmccrew|leechftp|libweb|liebaofast) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (linkscan|linkwalker|lwp-download|majestic|masscan|mauibot|miner|mechanize|mj12bot|morfeus|moveoverbot|mozlila|nbot|netmechanic|netspider|nicerspro|nikto|ninja|nominet|nutch) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (octopus|pagegrabber|petalbot|planetwork|postrank|proximic|purebot|queryn|queryseeker|radian6|radiation|realdownload|remoteview|rogerbot|scan|scooter|seekerspid) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (semalt|siclab|sindice|sistrix|sitebot|siteexplorer|sitesnagger|skygrid|smartdownload|snoopy|sosospider|spankbot|spbot|sqlmap|stackrambler|stripper|sucker|surftbot) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (sux0r|suzukacz|suzuran|takeout|teleport|telesoft|true_robots|turingos|turnit|vampire|vikspider|voideye|webleacher|webreaper|webstripper|webvac|webviewer|webwhacker) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (winhttp|wwwoffle|woxbot|xaldon|xxxyy|yamanalab|yioopbot|youda|zeus|zmeu|zune|zyborg) [NC]
    RewriteCond %{HTTP_USER_AGENT} (anthropic-ai|CCBot|GPTBot|ChatGPT|ChatGPT-User|OAI-SearchBot|Claude-Web|Diffbot|OpenAI|omgilibot|omgili|ç) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (Google-Extended|Applebot-Extended|cohere-AI|ClaudeBot|ImagesiftBot|PerplexityBot|cohere-AI|ImagesiftBot|PerplexityBot|Timpibot|Webzio-Extended|YouBot) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (Bytespider|FacebookBot|Meta-ExternalAgent|Twitterbot) [NC]

    RewriteRule .* – [F]

    # RewriteRule .* /nG_log.php?log [END,NE,E=nG_USER_AGENT:%1]

    1. ok, Systemfailure, da wird was verschluckt :
      als allererstes nach dem [userAgent] muss in spitzen Klammern : IfModule mod_rewrite.c
      und ganz nach unten ebenfalls in spitzen Klammern : /IfModule

      die Zeilen beginnen mit Rewrite und enden mit der schliessenden eckigen Klammer der NC,OR-Anweisung, falls wer copy|paste macht

Leave a Reply to fisk. Cancel reply

Your email address will not be published. Required fields are marked *