Auch wenn ich eigentlich davon ausgegangen bin, dass der AI-Bot mit den Inhalten, die ich hier auf pen-and-tell produziere, eher nichts anfangen kann, habe ich jetzt den Ai-Bot hier ausgesperrt. Und bei der Gelegenheit auch gleich den Pinterest-Bot. Und das Gleiche auch bei oly-e.de.
Die Suchmaschinen dürfen noch, obwohl der Traffic, der von Suchmaschinen kommt, eigentlich den Kohl nicht fett macht. Und wenn, dann sind es oft Leute, die genau ihre eine Seite ankucken und dann wieder weg sind – und manchmal eigentlich was völlig anderes gesucht haben – nur dass ich eben da drüber auch was von mir gegeben habe. Hat auch „Nachteile“, wenn man beim Google-Ranking vergleichsweise weit oben ist.
Die „großen Medienhäuser“ haben den OpenAI-Bot auch schon ausgesperrt. Weil sie natürlich möchten, dass die Leute ihre Inhalte konsumieren und nicht einfach ChatGPT fragen und dann vom Bot die Antwort kriegen – der ja meistens keine Quellenangaben mitliefert.
Wenn man dann davon ausgeht, dass einige „Medienhäuser“ längst dazu übergegangen sind, Journalisten durch KI zu ersetzen, wird die Sache strange. Der Bot wird also daran gehindert, seinen eigenen Mist zu „crawlen“. Was natürlich ausgesprochen sinnvoll ist, denn wenn man den Bot mit seinem eigenen Output füttert, sinkt die Datenqualität ins Bodenlose.
Also: Hier liest die KI in Zukunft nicht mehr mit. Wenn ihr noch irgendwelche Crawler kennt, die man rauswerfen sollte, einfach in die Kommentare schreiben. Wenn ich schon dabei bin…..
Hmm, wie sperre ich denn diese Bots? Üblicherweise sperre ich IP-Adressen aber die kann sich ja auch ändern.
Ich habe das jetzt so gemacht:
Order allow,deny
Allow from all
Deny from openai.com
Deny from openai.com/gptbot
richtig?
Die robots.txt ist wohl die bessere Lösung:
User-agent: GPTBot
Disallow: /
Ähhh…. nein.
Die Crawler sperrst Du über die robots.txt. Dazu musst Du wissen, auf welchen Namen der Crawler hört. Der OpenAi-Bot heißt GPTBot. Also muss da drin stehen:
User-agent: GPTBot
Disallow: /
Da ich mich nicht auskenne, kenne ich lediglich die Namen von ein paar Google-Bots, den Pinterest-Bot und die wichtigsten Suchmaschinen. Also wenn wer firm ist auf dem Gebiet: her mit den Infos….
Da warst Du schneller….
Meines Wissens sollte auch
UserAgent: *
Disallow: /
funktionieren, um alles auszuperren.Definiert ist das Ganze in RFC3909. Ist aber eben auch nur eine Empfehlung, daran halten muss sich kein Crawler.
Aber wenn man den Webserver konfigurieren kann, lassen sich auch weitere Bots aussperren, sofern sie einen User-Agent String senden. Sonst bleibt nur, IP Adressen zu sperren.
Ansonsten lesen einie Crawler wohl noch eine sitemap.xml. Das genaue Format kenn ich aber nicht.
Und die ganzen Bots,die irgendwelche Installationen wie WordPress suchen, wird man damit auch nicht los.
Sven
Klar kann man alle aussperren, aber ein paar will man dann doch haben…. 😉
Jeder wie er mag… 😉
Aber man kann so auch gewuenschte Crawler erst erlauben und dann am Ende einen Wildcard Block machen, um alle anderen auszusperren. Zumindest verstehe ich die Beschreibung des RFC3909 so.
Lies mal hier:
https://www.netkin.de/was-sind-google-bots/
LG Andreas
CCBot (Common Crawl Bot) ist auch noch so ein Kandidat
und dann die Lümmel in der .htaccess auch noch einmal ärgern
# [USER AGENT]
RewriteCond %{HTTP_USER_AGENT} ([a-z0-9]{2000,}) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (<|%0a|%0d|%27|%3c|%3e|%00|0x00) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (ahrefs|alexibot|majestic|mj12bot|rogerbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ((c99|php|web)shell|remoteview|site((.){0,2})copier) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (econtext|eolasbot|eventures|liebaofast|nominet|oppo\sa33) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (base64_decode|bin/bash|disconnect|eval|lwp-download|unserialize|\\\x22) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (acapbot|acoonbot|asterias|attackbot|backdorbot|becomebot|binlar|blackwidow|blekkobot|blexbot|blowfish|bullseye|bunnys|butterfly|careerbot|casper|checkpriv|cheesebot|cherrypick|chinaclaw|choppy|clshttp|cmsworld|copernic|copyrightcheck|cosmos|crescent|cy_cho|datacha|demon|diavol|discobot|dittospyder|dotbot|dotnetdotcom|dumbot|emailcollector|emailsiphon|emailwolf|extract|eyenetie|feedfinder|flaming|flashget|flicky|foobot|g00g1e|getright|gigabot|go-ahead-got|gozilla|grabnet|grafula|harvest|heritrix|httrack|icarus6j|jetbot|jetcar|jikespider|kmccrew|leechftp|libweb|linkextractor|linkscan|linkwalker|loader|masscan|miner|mechanize|morfeus|moveoverbot|netmechanic|netspider|nicerspro|nikto|ninja|nutch|octopus|pagegrabber|petalbot|planetwork|postrank|proximic|purebot|pycurl|python|queryn|queryseeker|radian6|radiation|realdownload|scooter|seekerspider|semalt|siclab|sindice|sistrix|sitebot|siteexplorer|sitesnagger|skygrid|smartdownload|snoopy|sosospider|spankbot|spbot|sqlmap|stackrambler|stripper|sucker|surftbot|sux0r|suzukacz|suzuran|takeout|teleport|telesoft|true_robots|turingos|turnit|vampire|vikspider|voideye|webleacher|webreaper|webstripper|webvac|webviewer|webwhacker|winhttp|wwwoffle|woxbot|xaldon|xxxyy|yamanalab|yioopbot|youda|zeus|zmeu|zune|zyborg) [NC]
RewriteCond %{HTTP_USER_AGENT} ChatGPT|GPT-4|OpenAI|GPTBot|CCBot [NC]
RewriteRule .* – [F,L]
(die hier angezeigten Umbrüche nach einen ‚-‚ korrigieren, da geht der Text stumpf weiter …)
*hust**hust*
schulligung
Danke erstmal. Durch die Antwort bin ich jetzt auf webrobots.de gestoßen, die mal flott alle aktuellen Webrobots auflisten. Das dauert jetzt etwas, die robots.txt anzupassen…… 😉
Mit dem vorhin schon erwähnten Rundumschlag
UserAgent: *
Disallow: /
kannst Du erst einmal alle aussperren und dann danach die auflisten, denen Du was erlauben willst.
also
UserAgent: Name des coolen Krabblers
Disallow: /adminGeheminisse
Disallow: /weitereSachediedichnichtsangeht
(vor dem nächsten unbedingt Freizeile einfügen)
UserAgent: nächsterBitte
…
macht die Sache flotter 😉
Ich war so frei und hab‘ mir Deine kopiert, ohne die Sitemap natürlich 🙂
Danke!
Rolf