Common Crawl

20. Juni 2024 – Diesen Monat hat Common Crawl seinen 100. Crawl veröffentlicht.

Wer damit nichts anzufangen weiß: Common Crawl ist ein offener Webkorpus, einige Petabytes groß und eben deshalb *die* Trainingsbasis fast aller großen Sprachmodelle. 60% der Vortrainingsdaten für GPT-3 stammten aus einem gefilterten Common Crawl. Generative KI wäre ohne den Common Crawl nicht möglich gewesen. Und das genau ist auch das erklärte Ziel des Non-Profit: Webdaten verfügbar zu machen, auf die sonst nur Big Tech Zugriff hätte.

Ich hatte mir Common Crawl schon lange nicht mehr angesehen und wollte daher einfach mal untersuchen, wie es denn heute um deutschsprachige Inhalte steht. Analysiert wurde das Inkrement #100, eingeschränkt auf den URL-Raum aller .de-Adressen: Die Schnittmenge zwischen Monatsarchiven liegt inzwischen im einstelligen Prozentbereich und der Fokus auf .de-Domains war eine kostengünstige Approximation der viel aufwendigeren Sprachenerkennung.

Gezählt habe ich

3.224.547.295 unterschiedliche URLs
145.099.211 (4,5%) davon in einer .de-Domain

in insgesamt

69.342.933 unterschiedlichen Domains
5.614.859 (8,1%) davon mit .de-Endung

Die Qualität des Indexes ist bewusst inklusiv gehalten. Wer forscht, muss sich den interessierenden Ausschnitt aus dem Ausschnitt selbst erzeugen. Die Datenmengen sind zwar groß, aber noch praktikabel. Filter- und Blocklisten sind eure Freunde, Verzerrung in den Ergebnissen dann leider die Folge, doch der Common Crawl als solches ist schon nicht ohne Bias. Lest dazu das hervorragend recherchierte Papier von Stefan Baack. Oder schaut einfach seinen re:publica-Vortrag.

Als Nächstes wollte ich die Schnittmenge zwischen Common Crawl und meinem eigenen Crawl ermitteln. Dafür habe ich aus den im Zeitraum Q1/2024 von Rivva erstmalig gefundenen URLs 50.000 zufällig ausgewählt und mit dem Mai-Archiv von Common Crawl verglichen. Heraus purzelten 4.907 Seiten von 323 verschiedenen Sites (darunter auch ein paar englischsprachige, die mein Bot immer noch verfolgt).

Für die Forschung ist so ein monatlicher Schnappschuss völlig ausreichend. Viele Anwendungen verlangen jedoch einen Echtzeitindex. Deshalb hat OpenAI mittlerweile auch seinen eigenen Bot. Wenn dieser nicht blockiert würde…

Also habe ich zuletzt geschaut, wer hierzulande eigentlich die "GenAI-Bots" überhaupt noch zulässt per robots.txt:

GPTBot wird von keiner der großen Nachrichtenseiten mehr geduldet, Ausnahme sind die öffentlich-rechtlichen Angebote
CCBot dito, nur ein Haus hat ihn noch nicht gesperrt… findet ihr leicht heraus
Google-Extended ebenso durch die Bank blockiert, mit ganz wenigen Ausnahmen
Applebot-Extended ist erst wenige Tage alt, vier Mal habe ich die Sperrklausel mit Stand heute entdeckt

Wer selbst nachsehen möchte, ob die eigenen Seiten im Common Crawl enthalten sind, hier entlang und einfach Sternchen an eure Adresse anhängen.

∀ Nerds: Diese Projektpräsentation von Sebastian Nagel ist ebenfalls exquisit.