Rivva-Logo

KI-Crawler? Zugriff verweigert!


Webstatistik: Wie viele Webdomains verwehren den neuen Webcrawlern jeglichen Besuch ihrer Seiten?

Heute kucken wir uns mal 150.000 robots.txt-Dateien an: Mich interessierte im Detail, wer die "KI-Crawler" von GPT, Common Crawl, Google und Apple eigentlich überhaupt noch auf seine Website lässt.

Dass mittlerweile fast alle Nachrichtenseiten die GenAI-Bots aussperren, hatte ich ja schon vorletztes Mal über Common Crawl gepostet. Dass offenbar aber generell eine starke Gegenwehr auf dem Weg ist, die eigenen Webinhalte vor der Verwertung durch generative KIs zu schützen, verdient eine zweite, tiefere Betrachtung.

Zum Vorhaben:

Das Ergebnis (mit Startpunkten der User-Agent-Kennungen in Klammern):

Anschließend habe ich die Liste nochmal auf Rivva-Quellen eingeschränkt (~10.000 Domains):

7,2 Prozent ist eine Menge! Color me intrigued…

 

Archiv: 2024 (4)   2023 (2)   2021 (3)   2020 (1)   2019 (2)   2018 (5)   2017 (3)   2016 (3)   2015 (1)   2014 (2)   2013 (8)   2012 (11)   2011 (4)   2010 (8)   2009 (18)   2008 (12)   2007 (17)   alle (104)