Rivva-Logo

Common Crawl

Diesen Monat hat Common Crawl seinen 100. Crawl veröffentlicht.

Wer damit nichts anzufangen weiß: Common Crawl ist ein offener Webkorpus, einige Petabytes groß und eben deshalb *die* Trainingsbasis fast aller großen Sprachmodelle. 60% der Vortrainingsdaten für GPT-3 stammten aus einem gefilterten Common Crawl. Generative KI wäre ohne den Common Crawl nicht möglich gewesen. Und das genau ist auch das erklärte Ziel des Non-Profit: Webdaten verfügbar zu machen, auf die sonst nur Big Tech Zugriff hätte.

Ich hatte mir Common Crawl schon lange nicht mehr angesehen und wollte daher einfach mal untersuchen, wie es denn heute um deutschsprachige Inhalte steht. Analysiert wurde das Inkrement #100, eingeschränkt auf den URL-Raum aller .de-Adressen: Die Schnittmenge zwischen Monatsarchiven liegt inzwischen im einstelligen Prozentbereich und der Fokus auf .de-Domains war eine kostengünstige Approximation der viel aufwendigeren Sprachenerkennung.

Gezählt habe ich

in insgesamt

Die Qualität des Indexes ist bewusst inklusiv gehalten. Wer forscht, muss sich den interessierenden Ausschnitt aus dem Ausschnitt selbst erzeugen. Die Datenmengen sind zwar groß, aber noch praktikabel. Filter- und Blocklisten sind eure Freunde, Verzerrung in den Ergebnissen dann leider die Folge, doch der Common Crawl als solches ist schon nicht ohne Bias. Lest dazu das hervorragend recherchierte Papier von Stefan Baack. Oder schaut einfach seinen re:publica-Vortrag.

Als Nächstes wollte ich die Schnittmenge zwischen Common Crawl und meinem eigenen Crawl ermitteln. Dafür habe ich aus den im Zeitraum Q1/2024 von Rivva erstmalig gefundenen URLs 50.000 zufällig ausgewählt und mit dem Mai-Archiv von Common Crawl verglichen. Heraus purzelten 4.907 Seiten von 323 verschiedenen Sites (darunter auch ein paar englischsprachige, die mein Bot immer noch verfolgt).

Für die Forschung ist so ein monatlicher Schnappschuss völlig ausreichend. Viele Anwendungen verlangen jedoch einen Echtzeitindex. Deshalb hat OpenAI mittlerweile auch seinen eigenen Bot. Wenn dieser nicht blockiert würde…

Also habe ich zuletzt geschaut, wer hierzulande eigentlich die "GenAI-Bots" überhaupt noch zulässt per robots.txt:

Wer selbst nachsehen möchte, ob die eigenen Seiten im Common Crawl enthalten sind, hier entlang und einfach Sternchen an eure Adresse anhängen.

∀ Nerds: Diese Projektpräsentation von Sebastian Nagel ist ebenfalls exquisit.

 

Archiv: 2024 (4)   2023 (2)   2021 (3)   2020 (1)   2019 (2)   2018 (5)   2017 (3)   2016 (3)   2015 (1)   2014 (2)   2013 (8)   2012 (11)   2011 (4)   2010 (8)   2009 (18)   2008 (12)   2007 (17)   alle (104)