KI-Crawler per Tag stoppen

Das IPTC /W3 arbeitet mittlerweile an einem Verfahren, das automatisierte Crawler davon abhalten soll, ohne Rückfrage Content abzugreifen.

https://www.w3.org/2022/tdmrep/#abstract

Es soll dabei nicht nur darum gehen, den Crawler komplett zu blockieren, sondern auch verschiedenste Modelle anzubieten. Freie Benutzung für Forschung, verboten für kommerzielle Nutzung, oder mit eingebundener Adresse samt Telefonnummer für Rückfragen. Oder generell Pay.

Es geht dabei nicht nur um Bilder, sondern generell um Daten und Data-Mining-Anwendungen.

Da wird auch klar, warum sich damit ernsthaft beschäftigt wird. Es geht nicht etwa drum, die Rechte des kleinen Hobbyfotografen zu schützen, es geht um große Datensammlungen von Firmen und Institutionen.

Was man mit Datamining anstellen kann, hat David Kriesel mit “Bahnmining” und “Spiegelmining” demonstriert, ich nehme an, jede(r) hat die beiden Vorträge gesehen, wenn nicht, nachholen.

David Kriesel thematisiert in seinen Datamining-Vorträgen auch, was man mit solchen Verfahren anstellen kann, bis hin zur Abbildung von persönlichen Beziehungen innerhalb der Spiegel-Redaktion nur aufgrund der Veröffentlichungsdaten der Artikel.

Das Problem ist, das ist nicht nur möglich – das wird seit Jahren gemacht und das KI-Spielzeug, das derzeit durch das Netz wandert, ist nur die Spitze des Eisbergs. Denn natürlich kann das, was Kriesel als Hobby nebenher betreibt, mit entsprechender Infrastruktur auch automatisiert veranstaltet werden. Eben durch eine “KI”. Einen Blechdepp. Der dann zum Beispiel aufgrund Deines Einkaufverhaltens – jeden Tag zwei Tafeln Schokolade – eine zur Kreditabsicherung abzuschließende Risikolebensversicherung verteuert. Da sitzt dann auch gar kein Sachbearbeiter mehr, den man eventuell bequatschen könnte – die KI gibt Dir Deinen Score und friss oder stirb.

Im Augenblick ist das Stop-Tag für das Datamining noch in der Entwicklung und es ist auch die Frage, wer sich daran hält oder halten wird. Bis dahin hilft nur, bereits bekannte Konzerne, denen Datenschutz völlig an den Füßen vorbeigeht, nicht mit Daten zu versorgen.

Und sich jederzeit klarmachen, was man im Netz treibt. Und im Zweifel Ablenkungsstrategien entwickeln. Ich mache hier mittlerweile zwar Daily Content, produziere aber teilweise vor, so dass man aus den Veröffentlichungsdaten der Artikel nicht herauslesen kann, ob ich da auch vor der Kiste sitze – und von wo aus ich poste.

3 Replies to “KI-Crawler per Tag stoppen”

  1. Und wenn ich so Deinen letzten Absatz lese, dann wird mir etwas unheimlich… Ist er es selbst oder lässt er schreiben? 😉

    Aber im Prinzip eine gute Strategie, vorproduzieren – macht für einen Blog durchaus viel Sinn, auch ohne dem Crawler und KI Hintergrund.

    1. Daily Content geht ohne Vorproduktion nicht. Es passiert nicht jeden Tag was, auf das man reagieren will oder kann. Und wenn man alleine ist, sowieso nicht. Und wenn ich was schreiben lasse, steht da “Gastbeitrag” drüber…

  2. Wenn’s nur ums Stoppen bzw. Aussperren unliebsamer Crawler geht: robots.txt existiert seit vielen, vielen Jahren. (Wobei hier wie bei dem neuen Vorschlag gilt: Es gibt keine Garantie, dass die Crawler sich auch dran halten.)

    Der Unterschied zu dem neuen Vorschlag ist, dass der neue Vorschlag nicht so schwarz-weiß denkt, sondern auch Optionen enthält wie “vorher um Erlaubnis fragen” und “bezahlen”, die es vorher nicht gab. Allerdings bleibt da im Detail doch so einiges offen – zumal man sich anscheinend nach wie vor drauf verlassen muss, dass die Data-Miner nach den Regeln spielen, und/oder auch selber irgendwie die Zugriffe derjenigen Data-Miner, die vorher gefragt bzw. bezahlt haben, von denen irgendwelcher hergelaufener Schmarotzer unterscheiden können muss (der Vorschlag hilft da nicht).

    Wenn mir das wichtig wäre, würde ich bei meinem Fotoalbum wahrscheinlich Ratenlimits einführen und/oder einem offensichtlich unautorisierten Crawler nach einer Weile nur noch schwarze Bilder schicken. Aber im Moment habe ich mit meiner Zeit noch Dringenderes zu tun …

Leave a Reply

Your email address will not be published. Required fields are marked *