Open AI-Bot ausgesperrt

Auch wenn ich eigentlich davon ausgegangen bin, dass der AI-Bot mit den Inhalten, die ich hier auf pen-and-tell produziere, eher nichts anfangen kann, habe ich jetzt den Ai-Bot hier ausgesperrt. Und bei der Gelegenheit auch gleich den Pinterest-Bot. Und das Gleiche auch bei oly-e.de.

Die Suchmaschinen dürfen noch, obwohl der Traffic, der von Suchmaschinen kommt, eigentlich den Kohl nicht fett macht. Und wenn, dann sind es oft Leute, die genau ihre eine Seite ankucken und dann wieder weg sind – und manchmal eigentlich was völlig anderes gesucht haben – nur dass ich eben da drüber auch was von mir gegeben habe. Hat auch “Nachteile”, wenn man beim Google-Ranking vergleichsweise weit oben ist.

Die “großen Medienhäuser” haben den OpenAI-Bot auch schon ausgesperrt. Weil sie natürlich möchten, dass die Leute ihre Inhalte konsumieren und nicht einfach ChatGPT fragen und dann vom Bot die Antwort kriegen – der ja meistens keine Quellenangaben mitliefert.

Wenn man dann davon ausgeht, dass einige “Medienhäuser” längst dazu übergegangen sind, Journalisten durch KI zu ersetzen, wird die Sache strange. Der Bot wird also daran gehindert, seinen eigenen Mist zu “crawlen”. Was natürlich ausgesprochen sinnvoll ist, denn wenn man den Bot mit seinem eigenen Output füttert, sinkt die Datenqualität ins Bodenlose.

Also: Hier liest die KI in Zukunft nicht mehr mit. Wenn ihr noch irgendwelche Crawler kennt, die man rauswerfen sollte, einfach in die Kommentare schreiben. Wenn ich schon dabei bin…..

12 Replies to “Open AI-Bot ausgesperrt”

  1. Hmm, wie sperre ich denn diese Bots? Üblicherweise sperre ich IP-Adressen aber die kann sich ja auch ändern.
    Ich habe das jetzt so gemacht:

    Order allow,deny
    Allow from all
    Deny from openai.com
    Deny from openai.com/gptbot

    richtig?

    1. Ähhh…. nein.
      Die Crawler sperrst Du über die robots.txt. Dazu musst Du wissen, auf welchen Namen der Crawler hört. Der OpenAi-Bot heißt GPTBot. Also muss da drin stehen:

      User-agent: GPTBot
      Disallow: /

      Da ich mich nicht auskenne, kenne ich lediglich die Namen von ein paar Google-Bots, den Pinterest-Bot und die wichtigsten Suchmaschinen. Also wenn wer firm ist auf dem Gebiet: her mit den Infos….

      Da warst Du schneller….

      1. Meines Wissens sollte auch

        UserAgent: *
        Disallow: /

        funktionieren, um alles auszuperren.Definiert ist das Ganze in RFC3909. Ist aber eben auch nur eine Empfehlung, daran halten muss sich kein Crawler.

        Aber wenn man den Webserver konfigurieren kann, lassen sich auch weitere Bots aussperren, sofern sie einen User-Agent String senden. Sonst bleibt nur, IP Adressen zu sperren.

        Ansonsten lesen einie Crawler wohl noch eine sitemap.xml. Das genaue Format kenn ich aber nicht.

        Und die ganzen Bots,die irgendwelche Installationen wie WordPress suchen, wird man damit auch nicht los.

        Sven

          1. Jeder wie er mag… 😉

            Aber man kann so auch gewuenschte Crawler erst erlauben und dann am Ende einen Wildcard Block machen, um alle anderen auszusperren. Zumindest verstehe ich die Beschreibung des RFC3909 so.

  2. CCBot (Common Crawl Bot) ist auch noch so ein Kandidat

    und dann die Lümmel in der .htaccess auch noch einmal ärgern

    # [USER AGENT]

    RewriteCond %{HTTP_USER_AGENT} ([a-z0-9]{2000,}) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (<|%0a|%0d|%27|%3c|%3e|%00|0x00) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (ahrefs|alexibot|majestic|mj12bot|rogerbot) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} ((c99|php|web)shell|remoteview|site((.){0,2})copier) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (econtext|eolasbot|eventures|liebaofast|nominet|oppo\sa33) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (base64_decode|bin/bash|disconnect|eval|lwp-download|unserialize|\\\x22) [NC,OR]
    RewriteCond %{HTTP_USER_AGENT} (acapbot|acoonbot|asterias|attackbot|backdorbot|becomebot|binlar|blackwidow|blekkobot|blexbot|blowfish|bullseye|bunnys|butterfly|careerbot|casper|checkpriv|cheesebot|cherrypick|chinaclaw|choppy|clshttp|cmsworld|copernic|copyrightcheck|cosmos|crescent|cy_cho|datacha|demon|diavol|discobot|dittospyder|dotbot|dotnetdotcom|dumbot|emailcollector|emailsiphon|emailwolf|extract|eyenetie|feedfinder|flaming|flashget|flicky|foobot|g00g1e|getright|gigabot|go-ahead-got|gozilla|grabnet|grafula|harvest|heritrix|httrack|icarus6j|jetbot|jetcar|jikespider|kmccrew|leechftp|libweb|linkextractor|linkscan|linkwalker|loader|masscan|miner|mechanize|morfeus|moveoverbot|netmechanic|netspider|nicerspro|nikto|ninja|nutch|octopus|pagegrabber|petalbot|planetwork|postrank|proximic|purebot|pycurl|python|queryn|queryseeker|radian6|radiation|realdownload|scooter|seekerspider|semalt|siclab|sindice|sistrix|sitebot|siteexplorer|sitesnagger|skygrid|smartdownload|snoopy|sosospider|spankbot|spbot|sqlmap|stackrambler|stripper|sucker|surftbot|sux0r|suzukacz|suzuran|takeout|teleport|telesoft|true_robots|turingos|turnit|vampire|vikspider|voideye|webleacher|webreaper|webstripper|webvac|webviewer|webwhacker|winhttp|wwwoffle|woxbot|xaldon|xxxyy|yamanalab|yioopbot|youda|zeus|zmeu|zune|zyborg) [NC]
    RewriteCond %{HTTP_USER_AGENT} ChatGPT|GPT-4|OpenAI|GPTBot|CCBot [NC]

    RewriteRule .* – [F,L]

    1. (die hier angezeigten Umbrüche nach einen ‘-‘ korrigieren, da geht der Text stumpf weiter …)
      *hust**hust*
      schulligung

      1. Danke erstmal. Durch die Antwort bin ich jetzt auf webrobots.de gestoßen, die mal flott alle aktuellen Webrobots auflisten. Das dauert jetzt etwas, die robots.txt anzupassen…… 😉

        1. Mit dem vorhin schon erwähnten Rundumschlag
          UserAgent: *
          Disallow: /

          kannst Du erst einmal alle aussperren und dann danach die auflisten, denen Du was erlauben willst.
          also
          UserAgent: Name des coolen Krabblers
          Disallow: /adminGeheminisse
          Disallow: /weitereSachediedichnichtsangeht
          (vor dem nächsten unbedingt Freizeile einfügen)
          UserAgent: nächsterBitte

          macht die Sache flotter 😉

Leave a Reply

Your email address will not be published. Required fields are marked *