KI-Crawler? Zugriff verweigert!

Webstatistik: Wie viele Webdomains verwehren den neuen Webcrawlern jeglichen Besuch ihrer Seiten?

27. Juli 2024 – Heute kucken wir uns mal 150.000 robots.txt-Dateien an: Mich interessierte im Detail, wer die "KI-Crawler" von GPT, Common Crawl, Google und Apple eigentlich überhaupt noch auf seine Website lässt.

Dass mittlerweile fast alle Nachrichtenseiten die GenAI-Bots aussperren, hatte ich ja schon vorletztes Mal über Common Crawl gepostet. Dass offenbar aber generell eine starke Gegenwehr auf dem Weg ist, die eigenen Webinhalte vor der Verwertung durch generative KIs zu schützen, verdient eine zweite, tiefere Betrachtung.

Zum Vorhaben:

150.000 Domains nach Zufall selektiert; davon 80% deutsch, 20% englisch; ohne Einfluss, wie lang die Site schon existiert, wie oft verlinkt oder welcher Art von Angebot
3,4% davon verbannen gleich mal alle Bots; diese Seiten wollen also auch in keiner Suchmaschine auftauchen und bleiben im Weiteren ohne Betracht – es soll hier nur um explizite Auslistung der KIs gehen
aktuelle robots.txt abgerufen im letzten Monat
150.000 Stichproben können nicht repräsentativ sein, nur eine Momentaufnahme, kein Trend

Das Ergebnis (mit Startpunkten der User-Agent-Kennungen in Klammern):

GPTBot: 2,4% (August 2023)
CCBot: 1,8% (März 2008)
Google-Extended: 1,2% (September 2023)
Applebot-Extended: 0,2% (Juni 2024)

Anschließend habe ich die Liste nochmal auf Rivva-Quellen eingeschränkt (~10.000 Domains):

GPTBot: 7,2%
CCBot: 5,8%
Google-Extended: 4,9%
Applebot-Extended: 1,4%

7,2 Prozent ist eine Menge! Color me intrigued…

Federated Search Directories

1. Juli 2024 – OpenWebSearch.eu ist das europäische Pendent zu Common Crawl. Das Ziel: ein offener Webindex (+ Services) = Datensouveränität für Europa. Das Projekt ist EU-finanziert und fördert seinerseits Community-Projekte. Leider habe ich den Call zu knapp vor Bewerbungsfrist entdeckt – entsprechend aus der Hüfte geschossen war meine (jetzt abgelehnte) Idee.

Title

Federated Search Directories

Target Field of the Research

Curation of search result sets: Are end users willing / able to establish useful / valuable search directories for their favorite topics / area of expertise?

Federation: Will the pool of directories improve through collaboration?

Approach and main challenges: describe your approach, methodology

This project will investigate the question if old-school search directories, curated by expert users, could be a feasible alternative to today’s paradigm of “10 blue links per page ranked by some algorithm”.

It will empower end users to help their fellow humans navigate the web in a new old way and hopefully show them the beauty and knowledge that the “long tail” of the web entails.

This approach is going back to a time when the web was so small that books where printed with lists of recommended starting points (I still have my copy of O’Reilly’s “The Whole Internet”), when Yahoo established their famous web directory, and when this format was the status quo (I worked on one of the oldest sites which is still online) because literally everybody could do it with a little knowledge about basic HTML.

Approach and main challenges: expected outcomes, relevance

Mainstream search engines are plagued with SEO and redundant content. Also, they have business interests that are counterproductive.

If people can curate and share their own favorite search results / starting points, we might get back to the experience that the web was new and exciting, and not dominated by the same 10 big companies every time you want to look something up.

If we then aggregate this “human” signal, we might find out what people really like. Back to a time when links were endorsements, not paid for.

Describe the contribution to the component(s) in detail

Search Applications: Starting with a known starting point URL or a given query, we give the user the opportunity to mix and match relevant information with similar search results. I’d also like to experiment if a “random walk” component (like that in the original Google rank formula) could be of any help to prevent the problem of “too much choice” on the users.

Users can then build URL bundles that have their own URL, will be hashtag-able, will be searchable, clonable (notifying the original author), can be shared, embedded on other sites and so on. The search result set will become a “social object” with an REST API interface.

With similarity metrics and vector based representations, we could then both recommend new URLs entering the search index and built detail hierarchies and tags-onomies of the user generated content.

Search Paradigms: As described above, this project will be answering the question if search directories are still useful in 2024 or could become more prominent in the future. Can we find new signals / weights in this user generated data?

Common Crawl

20. Juni 2024 – Diesen Monat hat Common Crawl seinen 100. Crawl veröffentlicht.

Wer damit nichts anzufangen weiß: Common Crawl ist ein offener Webkorpus, einige Petabytes groß und eben deshalb *die* Trainingsbasis fast aller großen Sprachmodelle. 60% der Vortrainingsdaten für GPT-3 stammten aus einem gefilterten Common Crawl. Generative KI wäre ohne den Common Crawl nicht möglich gewesen. Und das genau ist auch das erklärte Ziel des Non-Profit: Webdaten verfügbar zu machen, auf die sonst nur Big Tech Zugriff hätte.

Ich hatte mir Common Crawl schon lange nicht mehr angesehen und wollte daher einfach mal untersuchen, wie es denn heute um deutschsprachige Inhalte steht. Analysiert wurde das Inkrement #100, eingeschränkt auf den URL-Raum aller .de-Adressen: Die Schnittmenge zwischen Monatsarchiven liegt inzwischen im einstelligen Prozentbereich und der Fokus auf .de-Domains war eine kostengünstige Approximation der viel aufwendigeren Sprachenerkennung.

Gezählt habe ich

3.224.547.295 unterschiedliche URLs
145.099.211 (4,5%) davon in einer .de-Domain

in insgesamt

69.342.933 unterschiedlichen Domains
5.614.859 (8,1%) davon mit .de-Endung

Die Qualität des Indexes ist bewusst inklusiv gehalten. Wer forscht, muss sich den interessierenden Ausschnitt aus dem Ausschnitt selbst erzeugen. Die Datenmengen sind zwar groß, aber noch praktikabel. Filter- und Blocklisten sind eure Freunde, Verzerrung in den Ergebnissen dann leider die Folge, doch der Common Crawl als solches ist schon nicht ohne Bias. Lest dazu das hervorragend recherchierte Papier von Stefan Baack. Oder schaut einfach seinen re:publica-Vortrag.

Als Nächstes wollte ich die Schnittmenge zwischen Common Crawl und meinem eigenen Crawl ermitteln. Dafür habe ich aus den im Zeitraum Q1/2024 von Rivva erstmalig gefundenen URLs 50.000 zufällig ausgewählt und mit dem Mai-Archiv von Common Crawl verglichen. Heraus purzelten 4.907 Seiten von 323 verschiedenen Sites (darunter auch ein paar englischsprachige, die mein Bot immer noch verfolgt).

Für die Forschung ist so ein monatlicher Schnappschuss völlig ausreichend. Viele Anwendungen verlangen jedoch einen Echtzeitindex. Deshalb hat OpenAI mittlerweile auch seinen eigenen Bot. Wenn dieser nicht blockiert würde…

Also habe ich zuletzt geschaut, wer hierzulande eigentlich die "GenAI-Bots" überhaupt noch zulässt per robots.txt:

GPTBot wird von keiner der großen Nachrichtenseiten mehr geduldet, Ausnahme sind die öffentlich-rechtlichen Angebote
CCBot dito, nur ein Haus hat ihn noch nicht gesperrt… findet ihr leicht heraus
Google-Extended ebenso durch die Bank blockiert, mit ganz wenigen Ausnahmen
Applebot-Extended ist erst wenige Tage alt, vier Mal habe ich die Sperrklausel mit Stand heute entdeckt

Wer selbst nachsehen möchte, ob die eigenen Seiten im Common Crawl enthalten sind, hier entlang und einfach Sternchen an eure Adresse anhängen.

∀ Nerds: Diese Projektpräsentation von Sebastian Nagel ist ebenfalls exquisit.

Bluesky und Mastodon

8. Juni 2024 – Eine kleine Brücke zum AT Protocol und Fediverse

Es sieht so aus, als werden wir wunderschönen blauen Himmel und strahlenden Sonnenschein genießen…

Allen einen schönen Tag!

Einen Träumer hochheben

13. Juli 2023 – [Originaltitel der Illustration, die als Twitters Failwhale bekannt und zum sympathischen Symbol der Instabilität der Plattform werden sollte]

Twitter hat einmal eines der interessantesten "Nervensysteme" abgebildet. Twitter: das war der Zündfunke des Echtzeit-Webs, ein neues Internetprotokoll. Und der Tweet… was für ein schöner Datentyp! Einst das wohl sozialste Objekt im ganzen globalen Dorf, 140 fein säuberlich abgewogene Zeichen, Poesie im SMS-Kleinformat.

Wie lachhaft meine ersten naiven Versuche doch waren, wie genial dagegen der nie wieder erreichte Twitter-Agent (aka Rivva Social), wie witzig die Datenwissenschaft der Emojis.

Letzte Nacht nun wurde auch mir das Twitter-API abgedreht. Die Tweets laufen zwar erst einmal wieder, aber für mehr fehlt natürlich das Geld. Der alte Zugang soll irgendwie über 30.000 €/Monat kosten, LOL.

Mastodon API

26. Mai 2023 – Wieder durchgefallen auch in Runde 14 des Prototype Funds. Daher nur kurz fürs Logbuch festgehalten.

Projekttitel

Mastodon API

Beschreibe dein Projekt kurz.

Als dezentrales und werbefreies Netzwerk wird Mastodon momentan als Twitter-Nachfolger gehandelt. Mehrere Programmbibliotheken existieren, um den Zugriff auf die offene Programmierschnittstelle (API) von Mastodon-Instanzen zu erleichtern. Doch ausgerechnet der Mastodon-Client für die Sprache Ruby, in der Mastodon selbst programmiert ist, wird nicht mehr gepflegt. Die letzte Implementierung ist vier Jahre alt, mittlerweile unvollständig und inkompatibel mit aktuellen Ruby-Versionen. Ich würde das verkümmerte Open-Source-Projekt gerne forken, aktualisieren und wieder vorantreiben.

Welche gesellschaftliche Herausforderung willst du mit dem Projekt angehen?

Für Twitters Wachstum war die API-Ökonomie einst essenziell. Viele nützliche und unterhaltsame Bots (von Warn-Apps bis Katzen-Memes) sind einmal aus ersten Programmierenlernen-Projekten hervorgegangen. Wie offen sich Mastodon als neue Plattform in bestehende Systeme integrieren lässt, entscheidet deshalb mit. Zur Einordnung: Laut rubygems.org hat die Twitter-Bibliothek über 20 Millionen Downloads; das Mastodon-Paket zum Vergleich hat zurzeit 16 Tausend.

Nachdem Twitter seine API-Nutzung mit neuem Preismodell jetzt gerade für Hobbyisten, kleine Projekte und Forschung unbezahlbar gemacht hat, werden noch mehr Menschen ihre Projekte zu Mastodon umziehen. Dafür benötigen wir allerdings auf Zeit noch bessere Werkzeuge und Infrastruktur, und das in jeder erdenklichen Programmiersprache der Wahl. Ruby ist eine der am besten geeigneten Sprachen, um solche Aufgaben schnell und einfach zu automatisieren. Daher ist es so wichtig, dass die Ruby-Implementierung auf den aktuellen Stand gebracht wird. Speziell an Programmieranfänger gerichtet soll zudem detaillierte Dokumentation erstellt werden, wie APIs und Bibliothek verwendet werden und wie die Bibliothek selbst um eigene Funktionen erweitert werden kann.

Wie willst du dein Projekt technisch umsetzen?

Die verwendete Programmiersprache ist naturgemäß Ruby. Zu erstellende Dokumentation und Tutorials sind wohl am besten aufgehoben als Wiki-Seiten auf GitHub selbst.

Welche ähnlichen Ansätze gibt es schon und was wird dein Projekt anders bzw. besser machen?

Der veraltete Code ist unter https://github.com/mastodon/mastodon-api gehostet. Ehrlich gesagt ist es mir etwas rätselhaft, wie man ein Projekt von solcher Wichtigkeit so stark zur Seite fallen lassen kann. Vor allem, wenn die eigene Plattform so abhebt wie seit letztem Herbst. Nun ja, wir brauchen für dieses Projekt dringend einen funktionierenden Open-Source-Prozess. Darum geht es mir!

Wer ist die Zielgruppe und wie soll dein Projekt sie erreichen?

Das Projekt ist von Entwicklern für Entwickler. Doch wie bereits erwähnt: Ein eigener kleiner Bot, der relevante Posts aus dem Mastodon-Fediverse herausfischt, die eigene Timeline neu sortiert oder automatisch befüllt, ist ein hervorragendes erstes Programmierexperiment für angehende Coder. Deshalb soll sich die Dokumentation vor allem an Programmierneulinge richten.

Über Suchmaschinen und bei GitHub bzw. rubygems.org unter dem Suchbegriff »mastodon gem« fündig zu werden, sollte völlig ausreichen, um Sichtbarkeit für das Projekt zu schaffen. Zudem gibt es eine offizielle »Libraries and implementations«-Liste (unter docs.joinmastodon.org), wo man sich eintragen kann.

Erfahrung, Hintergrund, Motivation, Perspektive: Was sollen wir über dich (bzw. euch) wissen und bei der Auswahl berücksichtigen?

Für mich wäre dieses Projekt nicht ohne riesigen Eigennutz. Für mein Hauptprojekt greife ich seit 2008 auf Twitters API zurück. Das fällt jetzt komplett aus, da diese API nun mit Gewalt monetarisiert wird. Wie viele andere kleinere Datenauswerter und -visualisierer orientiere ich mich daher zu Mastodon um als neue Datenquelle. Ein Erfolg von Mastodon wäre auch ein Schritt in die richtige Richtung: weg von Big Tech, hin zum IndieWeb.

Skizziere kurz die wichtigsten Meilensteine, die im Förderzeitraum umgesetzt werden sollen.

Die vorhandene Codebasis soll geforkt werden (es sei denn, etwas spricht nach weiterer Analyse dafür, auf der grünen Wiese neu zu beginnen).
Danach werden alle unmittelbaren Probleme behoben, damit das Paket schnellstmöglich wieder einsatzfähig wird.
Anschließend sollte der Umfang um die noch fehlenden API-Endpunkte ergänzt werden. Eine ältere Aufstellung davon ist bereits als GitHub-Issue hinterlegt.
Die gegenwärtige Suite automatisierter Tests ist eigentlich nicht ausreichend und soll umfassend verbessert werden.
Ferner möchte ich die Bibliothek gerne mit Implementierungen in anderen Sprachen homogenisieren.
Parallel wird umfangreiche Dokumentation aller API-Methoden und -Datentypen mit Tutorials speziell für Einsteiger im Wiki erstellt.

Plattform für personalisierte Twitter-Agenten und Algorithmenkompetenz

27. November 2021 – Nur noch fürs Logbuch… hier die Projektskizze meiner Bewerbungen für den Prototype Fund. Ich war mal wieder so zuversichtlich, doch leider abgelehnt (Runde 10 & 11).

Projekttitel:

Plattform für personalisierte Twitter-Agenten und Algorithmenkompetenz

Beschreibe dein Projekt kurz

Das Projekt möchte die Algorithmenkompetenz unter journalistischen und selbstbestimmt informierten Twitter-Nutzer:innen fördern.

Dazu wird eine offene Plattform in Form eines personalisierbaren Informationsassistenten bereitgestellt, die ihre Anwender:innen ermächtigt, den eigenen Rechercheprozess oder die eigene Mediennutzung durch selbst aufgestellte Computeralgorithmen zu unterstützen und zu optimieren.

Nutzer:innen können sich somit – à la „Programming by Example“ – individuelle Werkzeuge und Arbeitsabläufe nach Bedarf maßschneidern und entwickeln gleichzeitig tiefere Intuition für die Funktion und den Einfluss praktischer Algorithmen vielfältiger Anwendungsbereiche.

Welche gesellschaftliche Herausforderung willst du mit dem Projekt angehen?

Algorithmen spielen in der Meinungsbildung inzwischen eine zentrale Rolle. Sobald Maschinen so stark in unser Leben eingreifen und selbstständig entscheiden, wer welche Medieninhalte bevorzugt zu Gesicht bekommt, folgen daraus direkte Auswirkungen auf die Meinungsbildungsprozesse Einzelner und über kurz oder lang auf die deliberative Demokratie.

Zum Ruf nach mehr gesamtgesellschaftlicher Medien- und Informationskompetenz gesellt sich daher zuletzt die Notwendigkeit, »algorithmisches Denken zu verstehen«. Um Entscheidungen zu beurteilen, die Programmierer:innen und ihr Code stellvertretend für Anwender:innen treffen, um mehr Transparenz einzufordern, ethische Standards und höhere Einflussnahme, muss niemand den Algorithmus selbst programmieren können, doch es hilft, sein Grundrezept verstanden zu haben.

Aus diesem Anlass möchte ich mit dem Projekt grundlegendes Wissen über genau jene Algorithmen und ihre Arbeitsweise vermitteln, denen Twitter-Nutzer:innen ohnehin in ihrer täglichen Praxis begegnen. Parallel dazu werden die Anwender:innen in die Lage versetzt, sich nach Baukastenprinzip ein ganz genau auf die persönlichen Bedürfnisse zugeschnittenes Empfehlungssystem selbst zu gestalten – immer im bevorzugten Rahmen irgendwo zwischen Informationsflut und Filterblase.

Wie willst du dein Projekt technisch umsetzen?

Was deutlich dafür spricht, den Prototypen auf Basis von Twitter zu erstellen, ist, dass es von der Zielgruppe aktiv genutzt wird und aus dem öffentlichen Diskurs auch kaum mehr wegzudenken ist. Zudem: Aufgrund offener Programmierschnittstellen sind die Daten großteils öffentlich nutzbar.

Als erste Anbindung halte ich Twitter deshalb für eine gute Wahl. Dennoch soll das System durch Verallgemeinerung wo nötig flexibel und unabhängig bleiben.

Zur Programmierung möchte ich auf Ruby on Rails zurückgreifen. Das Web-Framework hat sich als produktive Umgebung bewiesen, verfügt über eine bunte, lebendige Open-Source-Community und lässt sich leicht in der Cloud hosten oder datensouverän auch selbst.

Für die Bereiche des Maschinellen Lernens dagegen ist es kaum sinnvoll, Ruby einzusetzen, da sich in der Forschung Python etabliert hat. Darum werden diese Anteile mit Scikit-learn geschrieben.

Die grafische Visualisierung der Algorithmen sowie ihrer Parameter erfolgt mithilfe von D3 (Data-Driven Documents).

Nutzer:innen sollen untereinander föderiert Parameter („Sweet spots“) austauschen können. Dazu wird Twitter selbst als Vehikel genutzt, um Daten im JSON-Format als Textnachricht mit „folgenden“ Instanzen zu teilen.

Hast du schon an der Idee gearbeitet? Wenn ja, beschreibe kurz den aktuellen Stand und erkläre die geplanten Neuerungen.

2009 habe ich bereits an einem intelligenten Twitter-Werkzeug gearbeitet.

Der damalige Ansatz besaß jedoch vergleichsweise wenig Möglichkeiten zum Individualisieren vonseiten der Benutzer:innen.

In 2016 dann habe ich mit und für WirtschaftsWoche ein Recherchewerkzeug mit Newsletterversand entwickelt.

Unser Projekt, gefördert durch den Digital News Innovation Fund, öffnete zwar die Empfehlungsmaschinerie für den Nutzer:innen-Kreis, die algorithmischen Strukturen aber blieben fest vorgegeben.

Der neue Ansatz nun will Algorithmen- wie Parameterwahl demokratisieren.

Welche ähnlichen Ansätze gibt es schon und was wird dein Projekt anders bzw. besser machen?

Entfernt ähnlich sind News-Apps (wie bspw. Nuzzel).

Mein Projekt möchte deren magische Blackbox dagegen gerade aufbrechen.

Inspiriert durch „Explorable Explanations“, Bret Victor und Edward Tufte, möchte ich eine plastische, reaktive Umgebung schaffen, in der Algorithmen aus elf unterschiedlichen Fachgebieten auf spielerische Weise erlernt, getestet und miteinander kombiniert werden können.

Wer ist die Zielgruppe und wie soll dein Projekt sie erreichen?

Das Projekt richtet sich in erster Linie an journalistisch tätige und vergleichbar medienkompetente Wissensarbeiter:innen sowie alle Twitter-Aktivist:innen, welche ein echtes Interesse an der Demokratisierung von Such-, Ranking- und Empfehlungskriterien haben.

In 2009 habe ich 128 Alpha-Tester:innen über mein Projektblog rekrutieren können. Das hat sehr gut funktioniert und würde ich deshalb wieder so machen.

Für immer noch sehr medienwirksam halte ich die Öffentlichkeitsarbeit in Gestalt von Werkstattberichten im Projektblog. Bestenfalls denkt ein Blogartikel per Meilenstein das Vorhaben einmal voraus, ein zweiter Bericht fasst die Resultate und Erkenntnisse abschließend zusammen.

Skizziere kurz die wichtigsten Meilensteine, die im Förderzeitraum umgesetzt werden sollen.

Meilensteine werden in zwölf Iterationen à zwei Wochen ausgeliefert – mit folgenden Etappenzielen:

Elementare Twitter-App fertiggestellt

Aus jedem Bereich im Mittel zwei bis drei relevante Algorithmen angewandt und visualisiert:

Information Retrieval
Wahrscheinlichkeitstheorie
Empfehlungssysteme
Maschinelles Lernen
Computerlinguistik

Zum Bergfest steht somit die Basis zum Suchen-Filtern-Gewichten-Aggregieren.

Soweit die Pflicht – mögliche Kandidaten für die Kür wären:

Spieltheorie
Kollektive Intelligenz
Komplexe Dynamische Systeme
Soziale Netzwerkanalyse
Informationstheorie
Genetische Algorithmen

(Reihenfolge variabel)

»Everything and its Hashtag«

15. März 2021 – Es ist Zeit, die alten Kategorien zu überdenken und ihnen ein modernes Klassifizierungssystem zur Seite zu stellen: Hashtags sind das überlegene Content-Discovery-Tool. Flexibler. Dynamischer. Tagsonomischer :)

Damit Rivva wieder bunter wird, habe ich nebst neuem Webcrawler noch einen Klassifizierer zum maschinellen Hashtaggen entwickelt.

Tauchen nun mehrere Artikel zum Hashtag auf, teilt sich der Nachrichtenstrom und ein neuer Strom/Fluss/Bach und meinetwegen auch Rinnsal entsteht. Alles ist ein Fluss… wie schon unter »Everything is a Stream« skizziert.

Es ist ein Neuanfang. Überflüssig werden die großen Schubladen (#technik, #medien, #politik, usw.) dennoch nicht. Ich sehe die Hashtags mehr als Container orthogonal zu den bestehenden Kategorien und langfristig ungefähr als Auffangbecken für die Living Stories/Structured News.

∀ Nerds: Technisch sind Hashtags Vektoren und bilden einen Wald (disjunkte Bäume).

Rivvabot/2.0: Nach 14 Jahren ein neuer Webcrawler

14. März 2021 – Ich habe die Zeit seit dem Spendenruf also damit verbracht, unter anderem einen neuen Webcrawler zu schreiben.

Nummer eins war das allererste Commit ins Git-Repository (* welches an diesem 22.1.2007 bloß »memetracker« hieß) und verfolgte das Grundprinzip, dass Vertrauen transitiv vererbt wird: „Von einer Menge vertrauenswürdiger Quellen ausgehend, folge ihren Empfehlungen (Outlinks) und zähle die so gefundenen Seiten – je nach Eigenschaft – zur vertrauten Menge. (Wiederhole unendlich.)“

Der neue Bot kombiniert nun ein gutes Dutzend solcher Strategien. Am wichtigsten für den neuen Ansatz war jedoch, auf welche Weise die Community und Vernetzung – jede Seite umgebend – ausschlaggebender würde. Wie das dann künftig zu mehr Vielfalt führen soll, dazu morgen in »Everything and its Hashtag«.

Rivva: Ohne eure Spende geht es nicht mehr

14. Dezember 2020 – Ich bin ab jetzt auf die freiwillige Leser:innenfinanzierung angewiesen. Deine Spende hilft, das Projekt in Schuss zu halten, zu verbessern und auszubauen.

Liebe Leserin, lieber Leser,

seit 2007 versucht Rivva, euch einen flotten aktuellen Netz-Überblick zu geben über die am meisten geteilten Artikel und diskutierten Themen – regelmäßig auch jenseits des bequemen Tellerrands.

So eine Seite zu finanzieren, ist und war nie einfach:

Je besser sie funktioniert, desto schneller schickt sie seine Leser:innen weg zu anderen Seiten.

Es fehlt die menschliche Stimme, die man als Nutzer:in mit dem Projekt verbindet. (Der gesprochene Podcast und das persönliche Blog sind hier gegenüber einem suchmaschinenartigen Dienst weit im Vorteil.)

Es entsteht das häufige Missverständnis, dass ja alles automatisch läuft.

Wozu also braucht das Projekt Geld?

In Wahrheit macht ein Projekt wie dieses eine Mordsarbeit – allein deshalb, weil sich das Internet und das Verhalten der Menschen im Internet ständig ändert… und Rivva immer mitziehen muss.

Es gibt dafür den schönen Begriff der Red-Queen-Hypothese: Alice (im Wunderland) trifft im Fortsetzungsbuch auf die Rote Königin, die ihr erklärt: „Hierzulande musst du so schnell rennen, wie du kannst, wenn du am gleichen Fleck bleiben willst.“

Die meiste Arbeit ist daher leider gar nicht direkt sichtbar: eine eigene Webcrawler-Infrastruktur (zum Abgrasen der vielen Quellen), hausinterne Machine-Learning-Modelle (für Dutzende verschiedener Aufgaben und Statistiken), mehrere gemietete Server (zur Verteilung des Ganzen), eine riesige Datenbank (als Abbild des Internets der vergangenen bald 14 Jahre).

Warum Rivva auf deine Mithilfe angewiesen ist

Im Moment sieht leider alles danach aus, als wäre es ohne breitere Unterstützung nicht mehr zu wuppen.

2020 hat mich (wie viele) voll erwischt. Im Frühjahr habe ich meine letzten Aufträge verloren: Projekte, die von Rivva-Technologien profitiert und sie teils mitfinanziert haben.

Ich finde ja, dass es mindestens einen solchen Dienst speziell für den deutschsprachigen Raum geben sollte.

Aber ohne eure Hilfe geht es nicht mehr. Überlegt doch bitte mal, ob ihr das Projekt nicht mit einem für euch passenden Betrag unterstützen möchtet.

Das ist entweder möglich durch eine Mitgliedschaft über Steady oder eure PayPal-Spende an meine E-Mail frank.westphal@gmail.com Wirklich jeder Beitrag hilft.

Leider kann ich euch keine Spendenbescheinigung ausstellen. Rivva ist nicht gemeinnützig; als finanzielle Zuwendung wird die Spende ordnungsgemäß als Einnahme versteuert.

Wenn ihr bereits eine Steady-Mitgliedschaft abgeschlossen habt, meinen größten Respekt! Überlegt doch bitte mal, ob ihr nicht auf das nächst größere Paket "aufrunden" möchtet. Schreibt mir gerne, was ihr euch als Gegenleistung für die verschiedenen Paketpreise wünschen würdet. Vielleicht lässt sich da was machen.

Von Herzen Dank für deinen Support,

Frank