Website für KI-Crawler blockieren

Viele Websites refinanzieren sich – zumindest zum Teil – durch Werbung. Nützliche Infos gegen Werbeimpressionen, so lautet der Deal. Damit das funktioniert, muss man dafür sorgen, dass Userinnen und User, die ein KI-Tool nach spezifischen Informationen befragen, die komplette Antwort nicht schon in ein bis drei Sätzen aus dem Tool bekommen, sondern auf die Webseite zugreifen, die die Information enthält und die KI darauf verweist. Nur dann sehen die User die bezahlte Werbung.

In diesem Blogbeitrag beschreiben wir, wie du die robots.txt – Datei verwenden kannst..

Um Websites für KI-Crawler zu blockieren, kannst du „robots.txt“ nutzen. Dabei handelt es sich, technisch gesehen, um eine kleine Textdatei, die im Webspace liegt. Man muss nicht auf sie verweisen, die Suchmaschinen versuchen, vor dem Crawlen der Website eine „robots.txt“-Datei zu finden. Die Robots-Datei verwendet ein standardisiertes Protokoll, mit dem die Anweisungen für Suchmaschinen-Crawler formuliert sind.

Anweisungen in robots.txt

Um eine Website für Crawler zu blockieren, fügt man den folgenden Befehl in die robots.txt-Datei ein:

User-agent: *
Disallow: /

Mit diesem Befehl wird Suchmaschinen-Crawlern signalisiert, dass alle Seiten auf der Website nicht gecrawlt werden sollen. Dadurch wird an sich auch verhindert, dass KI-Crawler oder andere Crawler auf Ihre Website zugreifen. Will man spezifisch die KI-Crawler von Google ausschließen, schreibt man statt des Sterns („*“ ist eine Wildcard; ein Platzhalter für alles):

User-agent: Google-Extended
Disallow: /

Statt „Disallow“ gibt es auch die Anweisung „Allow“, mit der gezielt festgelegt werden kann, was alles an Content gecrawled werden darf.

Mit User-Agent kann man gezielt bestimmten Crawlern den Zugriff auf Verzeichnisse erlauben bzw. verbieten. Google hat sehr viele Crawler und Fetcher im Einsatz, die unterschiedliche Namen haben. Das hat Google hier dokumentiert: https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

Mit der robots txt Datei Crawler für KI Modell davon abhalten, die Webseite zu  integrieren.

Tipp: robots.txt

Allerdings ist dies eine freiwillige Beschränkung, der sich die Suchmaschinenbetreiber unterwerfen wollen. Ignoriert ein Crawler die Anweisungen, ist der Content dennoch maschinell lesbar.

Prinzip Freiwilligkeit

KI-Crawler oder bösartige Bots könnten diese Anweisung grundsätzlich einfach ignorieren. Wenn das passiert, bleibt beispielsweise eine IP-Filterung, um den Zugriff auf deine Website zu blockieren. Eine Blockade über eine entsprechende htaccess-Direktive wäre ein wirksames Mittel gegen einen unliebsamen Bot.

Als Webseitenbetreiber hat man möglicherweise eine differenzierte Strategie: Es ist vielleicht sinnvoll, dass Teile der Website für KI-Trainings Verwendung finden und andere nicht. Schließlich möchte man in den Antworten auf relevante Prompts als Marke oder Lösungsanbieter auftauchen, doch eben auch die potentiell interessanten Leads auf der Webseite haben.

Um die Verwendbarkeit des eigenen Contents genauer zu steuern, führt Google neue Parameter ein. Die entsprechende Systematik nennt Google „Google-Extended: https://blog.google/technology/ai/an-update-on-web-publisher-controls/.

Die in der robots.txt – Datei beschriebenen Beschränkungen sollen für Bard (Googles Such-KI) und Vertex (Googles ML System, auf dem Kunden gelten KI-Modelle entwickeln, trainieren und bereitstellen können) gelten.

Wie man eine robots.txt bei goneo einfügt, haben wir in der Hilfe beschrieben.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert