Open AI-Bot ausgesperrt

Auch wenn ich eigentlich davon ausgegangen bin, dass der AI-Bot mit den Inhalten, die ich hier auf pen-and-tell produziere, eher nichts anfangen kann, habe ich jetzt den Ai-Bot hier ausgesperrt. Und bei der Gelegenheit auch gleich den Pinterest-Bot. Und das Gleiche auch bei oly-e.de.

Die Suchmaschinen dürfen noch, obwohl der Traffic, der von Suchmaschinen kommt, eigentlich den Kohl nicht fett macht. Und wenn, dann sind es oft Leute, die genau ihre eine Seite ankucken und dann wieder weg sind – und manchmal eigentlich was völlig anderes gesucht haben – nur dass ich eben da drüber auch was von mir gegeben habe. Hat auch “Nachteile”, wenn man beim Google-Ranking vergleichsweise weit oben ist.

Die “großen Medienhäuser” haben den OpenAI-Bot auch schon ausgesperrt. Weil sie natürlich möchten, dass die Leute ihre Inhalte konsumieren und nicht einfach ChatGPT fragen und dann vom Bot die Antwort kriegen – der ja meistens keine Quellenangaben mitliefert.

Wenn man dann davon ausgeht, dass einige “Medienhäuser” längst dazu übergegangen sind, Journalisten durch KI zu ersetzen, wird die Sache strange. Der Bot wird also daran gehindert, seinen eigenen Mist zu “crawlen”. Was natürlich ausgesprochen sinnvoll ist, denn wenn man den Bot mit seinem eigenen Output füttert, sinkt die Datenqualität ins Bodenlose.

Also: Hier liest die KI in Zukunft nicht mehr mit. Wenn ihr noch irgendwelche Crawler kennt, die man rauswerfen sollte, einfach in die Kommentare schreiben. Wenn ich schon dabei bin…..

12 Replies to “Open AI-Bot ausgesperrt”

Rolf says:

10. September 2023 at 08:45

Hmm, wie sperre ich denn diese Bots? Üblicherweise sperre ich IP-Adressen aber die kann sich ja auch ändern.
Ich habe das jetzt so gemacht:

Order allow,deny
Allow from all
Deny from openai.com
Deny from openai.com/gptbot

richtig?

Reply
1. Rolf says:
  
  10. September 2023 at 09:03
  
  Die robots.txt ist wohl die bessere Lösung:
  User-agent: GPTBot
  Disallow: /
  
  Reply
2. Reinhard says:
  
  10. September 2023 at 09:05
  
  Ähhh…. nein.
  Die Crawler sperrst Du über die robots.txt. Dazu musst Du wissen, auf welchen Namen der Crawler hört. Der OpenAi-Bot heißt GPTBot. Also muss da drin stehen:
  
  User-agent: GPTBot
  Disallow: /
  
  Da ich mich nicht auskenne, kenne ich lediglich die Namen von ein paar Google-Bots, den Pinterest-Bot und die wichtigsten Suchmaschinen. Also wenn wer firm ist auf dem Gebiet: her mit den Infos….
  
  Da warst Du schneller….
  
  Reply
  1. Sven says:
    
    10. September 2023 at 10:13
    
    Meines Wissens sollte auch
    
    UserAgent: *
    Disallow: /
    
    funktionieren, um alles auszuperren.Definiert ist das Ganze in RFC3909. Ist aber eben auch nur eine Empfehlung, daran halten muss sich kein Crawler.
    
    Aber wenn man den Webserver konfigurieren kann, lassen sich auch weitere Bots aussperren, sofern sie einen User-Agent String senden. Sonst bleibt nur, IP Adressen zu sperren.
    
    Ansonsten lesen einie Crawler wohl noch eine sitemap.xml. Das genaue Format kenn ich aber nicht.
    
    Und die ganzen Bots,die irgendwelche Installationen wie WordPress suchen, wird man damit auch nicht los.
    
    Sven
    
    Reply
    1. Reinhard says:
      
      10. September 2023 at 10:36
      
      Klar kann man alle aussperren, aber ein paar will man dann doch haben…. 😉
      
      Reply
      1. Sven says:
        
        10. September 2023 at 14:52
        
        Jeder wie er mag… 😉
        
        Aber man kann so auch gewuenschte Crawler erst erlauben und dann am Ende einen Wildcard Block machen, um alle anderen auszusperren. Zumindest verstehe ich die Beschreibung des RFC3909 so.
        
        Reply
Andreas S. says:

10. September 2023 at 10:07

Lies mal hier:

https://www.netkin.de/was-sind-google-bots/

LG Andreas

Reply
fisk. says:

10. September 2023 at 10:19

CCBot (Common Crawl Bot) ist auch noch so ein Kandidat

und dann die Lümmel in der .htaccess auch noch einmal ärgern

# [USER AGENT]

RewriteCond %{HTTP_USER_AGENT} ([a-z0-9]{2000,}) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (<|%0a|%0d|%27|%3c|%3e|%00|0x00) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (ahrefs|alexibot|majestic|mj12bot|rogerbot) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ((c99|php|web)shell|remoteview|site((.){0,2})copier) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (econtext|eolasbot|eventures|liebaofast|nominet|oppo\sa33) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (base64_decode|bin/bash|disconnect|eval|lwp-download|unserialize|\\\x22) [NC,OR]
RewriteCond %{HTTP_USER_AGENT} (acapbot|acoonbot|asterias|attackbot|backdorbot|becomebot|binlar|blackwidow|blekkobot|blexbot|blowfish|bullseye|bunnys|butterfly|careerbot|casper|checkpriv|cheesebot|cherrypick|chinaclaw|choppy|clshttp|cmsworld|copernic|copyrightcheck|cosmos|crescent|cy_cho|datacha|demon|diavol|discobot|dittospyder|dotbot|dotnetdotcom|dumbot|emailcollector|emailsiphon|emailwolf|extract|eyenetie|feedfinder|flaming|flashget|flicky|foobot|g00g1e|getright|gigabot|go-ahead-got|gozilla|grabnet|grafula|harvest|heritrix|httrack|icarus6j|jetbot|jetcar|jikespider|kmccrew|leechftp|libweb|linkextractor|linkscan|linkwalker|loader|masscan|miner|mechanize|morfeus|moveoverbot|netmechanic|netspider|nicerspro|nikto|ninja|nutch|octopus|pagegrabber|petalbot|planetwork|postrank|proximic|purebot|pycurl|python|queryn|queryseeker|radian6|radiation|realdownload|scooter|seekerspider|semalt|siclab|sindice|sistrix|sitebot|siteexplorer|sitesnagger|skygrid|smartdownload|snoopy|sosospider|spankbot|spbot|sqlmap|stackrambler|stripper|sucker|surftbot|sux0r|suzukacz|suzuran|takeout|teleport|telesoft|true_robots|turingos|turnit|vampire|vikspider|voideye|webleacher|webreaper|webstripper|webvac|webviewer|webwhacker|winhttp|wwwoffle|woxbot|xaldon|xxxyy|yamanalab|yioopbot|youda|zeus|zmeu|zune|zyborg) [NC]
RewriteCond %{HTTP_USER_AGENT} ChatGPT|GPT-4|OpenAI|GPTBot|CCBot [NC]

RewriteRule .* – [F,L]

Reply
1. fisk. says:
  
  10. September 2023 at 10:23
  
  (die hier angezeigten Umbrüche nach einen ‘-‘ korrigieren, da geht der Text stumpf weiter …)
  *hust**hust*
  schulligung
  
  Reply
  1. Reinhard says:
    
    10. September 2023 at 11:14
    
    Danke erstmal. Durch die Antwort bin ich jetzt auf webrobots.de gestoßen, die mal flott alle aktuellen Webrobots auflisten. Das dauert jetzt etwas, die robots.txt anzupassen…… 😉
    
    Reply
    1. fisk. says:
      
      10. September 2023 at 11:30
      
      Mit dem vorhin schon erwähnten Rundumschlag
      UserAgent: *
      Disallow: /
      
      kannst Du erst einmal alle aussperren und dann danach die auflisten, denen Du was erlauben willst.
      also
      UserAgent: Name des coolen Krabblers
      Disallow: /adminGeheminisse
      Disallow: /weitereSachediedichnichtsangeht
      (vor dem nächsten unbedingt Freizeile einfügen)
      UserAgent: nächsterBitte
      …
      macht die Sache flotter 😉
      
      Reply
    2. Rolf says:
      
      10. September 2023 at 13:15
      
      Ich war so frei und hab’ mir Deine kopiert, ohne die Sitemap natürlich 🙂
      Danke!
      Rolf
      
      Reply

12 Replies to “Open AI-Bot ausgesperrt”

Leave a Reply Cancel reply