–
Seit 18 Jahren trotzt Rivva den Stürmen des Internets, kreuzt durch die Strömungen der Nachrichtenflut und hält den Kurs auf Qualität.
Doch der Wind hat nachgelassen, die Vorräte schwinden – und ohne eure Hilfe droht das Schiff auf Grund zu laufen.
Die Lage an Bord
Rivva war nie ein luxuriöser Ozeanriese mit Sponsoren an Deck.
Kein Medientanker mit eigener Crew.
Sondern ein kleines, wendiges Segelboot auf großer Entdeckungsreise – unabhängig und frei.
Doch die Strömung hat sich geändert.
Die alten Handelsrouten sind versiegt.
Die Seekarten, die einst verlässliche Wege zeigten, taugen nicht mehr.
Jetzt liegt es an euch, ob die Reise weitergeht oder ob der Anker fällt.
Setzt die Segel – so haltet ihr Rivva auf Kurs
⛵ Steady – ein fester Platz in der Crew!
Regelmäßige Unterstützung sichert den Proviant und hält das Schiff auf Fahrt.
→ Jetzt anheuern!
🛟 PayPal – die leere Bordkasse auffüllen!
Ob große oder kleine Spende – jeder Tropfen hilft, Rivva über den Horizont zu heben.
→ Jetzt eine Münze in die Bordkasse werfen!
📡 SOS aussenden!
Teilt Rivva mit anderen Seefahrern, werft Flaschenpost aus, lasst die Welt wissen, dass hier noch ein Leuchtturm brennt.
🧭 Neu an Bord? Noch nicht sicher, wohin die Reise geht?
Werft einen Blick ins Logbuch & Seekarten (FAQ) – dort erfahrt ihr alles über Rivva, seine Mission und warum es eure Unterstützung braucht.
Danke an die treue Crew!
Seit fast zwei Jahrzehnten hält Rivva sich auf See.
Nicht wegen Werbung, nicht wegen Investoren – sondern wegen euch.
Ihr seid die Crew, die Rivva sicher durch unruhige Gewässer bringt.
Und mit etwas Glück und Rückenwind bleibt es auch dabei.
–
Ohne euch gäbe es Rivva längst nicht mehr – Zeit, Danke zu sagen!
(2. Version: überarbeitet für mehr Klarheit)
Hallo zusammen!
Viele von euch unterstützen mich seit Jahren über Steady – die meisten sogar schon seit meinem ersten Spendenaufruf 2019.
Dafür: Vielen lieben Dank!
Aber die Zahlen werden immer kleiner.
Nur ein harter Kern von 78 Fans hält Rivva noch am Laufen.
Deshalb heute mein Aufruf an euch:
Ich will Rivva nicht nur erhalten, sondern verbessern – es gibt so viel zu tun!
Ich will noch mal die beste Version von Rivva programmieren.
Wieder experimentieren.
Schauen, was möglich ist.
Doch das geht nur, wenn ich mich eine Zeit lang voll darauf konzentrieren kann – und dafür brauche ich eure Unterstützung.
Ich habe Rivva damals für mich selbst gebaut – weil ich wissen wollte, was im Netz passiert.
Aber Software verändert sich, sobald andere sie nutzen.
Sie bekommt ein zweites Leben.
Eines, das nicht mehr nur mir gehört, sondern euch allen.
Die letzten zwei Jahre konnte ich mich kaum um den Code kümmern (erst wegen Umzug und Wohnungssanierung, dann wegen längerer Krankheit).
Jetzt sitze ich wieder dran.
Ich will Rivva besser machen als je zuvor.
Aber ohne finanzielle Unterstützung kann ich mir diese Zeit nicht nehmen.
💙 Wie ihr helfen könnt – und wie es finanziell um Rivva steht –, erfahrt ihr auf der neuen Unterstützer-Seite.
Wenn Rivva eines bewiesen hat, dann Durchhaltevermögen.
18 Jahre sind kein Zufall – sondern Ausdauer.
Der Mäander in meinem Logo steht genau dafür: Wasser findet immer seinen Weg.
Dort, wo der Spenden-Banner war, kommt bald ein Login-Link.
Die erste App ist ein kleines Dankeschön für alle, die Rivva nie abgeschrieben haben.
Vielleicht bist du ja auch dabei.
Webstatistik: Wie viele Webdomains verwehren den neuen Webcrawlern jeglichen Besuch ihrer Seiten?
–
Heute kucken wir uns mal 150.000 robots.txt-Dateien an:
Mich interessierte im Detail, wer die "KI-Crawler" von GPT, Common Crawl, Google und Apple eigentlich überhaupt noch auf seine Website lässt.
Dass mittlerweile fast alle Nachrichtenseiten die GenAI-Bots aussperren, hatte ich ja schon vorletztes Mal über Common Crawl gepostet.
Dass offenbar aber generell eine starke Gegenwehr auf dem Weg ist, die eigenen Webinhalte vor der Verwertung durch generative KIs zu schützen, verdient eine zweite, tiefere Betrachtung.
Zum Vorhaben:
150.000 Domains nach Zufall selektiert; davon 80% deutsch, 20% englisch; ohne Einfluss, wie lang die Site schon existiert, wie oft verlinkt oder welcher Art von Angebot
3,4% davon verbannen gleich mal alle Bots; diese Seiten wollen also auch in keiner Suchmaschine auftauchen und bleiben im Weiteren ohne Betracht – es soll hier nur um explizite Auslistung der KIs gehen
aktuelle robots.txt abgerufen im letzten Monat
150.000 Stichproben können nicht repräsentativ sein, nur eine Momentaufnahme, kein Trend
Das Ergebnis (mit Startpunkten der User-Agent-Kennungen in Klammern):
GPTBot: 2,4%(August 2023)
CCBot: 1,8%(März 2008)
Google-Extended: 1,2%(September 2023)
Applebot-Extended: 0,2%(Juni 2024)
Anschließend habe ich die Liste nochmal auf Rivva-Quellen eingeschränkt (~10.000 Domains):
– OpenWebSearch.eu ist das europäische Pendent zu Common Crawl.
Das Ziel: ein offener Webindex (+ Services) = Datensouveränität für Europa.
Das Projekt ist EU-finanziert und fördert seinerseits Community-Projekte.
Leider habe ich den Call zu knapp vor Bewerbungsfrist entdeckt – entsprechend aus der Hüfte geschossen war meine (jetzt abgelehnte) Idee.
Title
Federated Search Directories
Target Field of the Research
Curation of search result sets: Are end users willing / able to establish useful / valuable search directories for their favorite topics / area of expertise?
Federation: Will the pool of directories improve through collaboration?
Approach and main challenges: describe your approach, methodology
This project will investigate the question if old-school search directories, curated by expert users, could be a feasible alternative to today’s paradigm of “10 blue links per page ranked by some algorithm”.
It will empower end users to help their fellow humans navigate the web in a new old way and hopefully show them the beauty and knowledge that the “long tail” of the web entails.
This approach is going back to a time when the web was so small that books where printed with lists of recommended starting points (I still have my copy of O’Reilly’s “The Whole Internet”), when Yahoo established their famous web directory, and when this format was the status quo (I worked on one of the oldest sites which is still online) because literally everybody could do it with a little knowledge about basic HTML.
Approach and main challenges: expected outcomes, relevance
Mainstream search engines are plagued with SEO and redundant content. Also, they have business interests that are counterproductive.
If people can curate and share their own favorite search results / starting points, we might get back to the experience that the web was new and exciting, and not dominated by the same 10 big companies every time you want to look something up.
If we then aggregate this “human” signal, we might find out what people really like. Back to a time when links were endorsements, not paid for.
Describe the contribution to the component(s) in detail
Search Applications: Starting with a known starting point URL or a given query, we give the user the opportunity to mix and match relevant information with similar search results. I’d also like to experiment if a “random walk” component (like that in the original Google rank formula) could be of any help to prevent the problem of “too much choice” on the users.
Users can then build URL bundles that have their own URL, will be hashtag-able, will be searchable, clonable (notifying the original author), can be shared, embedded on other sites and so on. The search result set will become a “social object” with an REST API interface.
With similarity metrics and vector based representations, we could then both recommend new URLs entering the search index and built detail hierarchies and tags-onomies of the user generated content.
Search Paradigms: As described above, this project will be answering the question if search directories are still useful in 2024 or could become more prominent in the future. Can we find new signals / weights in this user generated data?
–
Diesen Monat hat Common Crawl seinen 100. Crawl veröffentlicht.
Wer damit nichts anzufangen weiß:
Common Crawl ist ein offener Webkorpus, einige Petabytes groß und eben deshalb *die* Trainingsbasis fast aller großen Sprachmodelle.
60% der Vortrainingsdaten für GPT-3 stammten aus einem gefilterten Common Crawl.
Generative KI wäre ohne den Common Crawl nicht möglich gewesen.
Und das genau ist auch das erklärte Ziel des Non-Profit:
Webdaten verfügbar zu machen, auf die sonst nur Big Tech Zugriff hätte.
Ich hatte mir Common Crawl schon lange nicht mehr angesehen und wollte daher einfach mal untersuchen, wie es denn heute um deutschsprachige Inhalte steht.
Analysiert wurde das Inkrement #100, eingeschränkt auf den URL-Raum aller .de-Adressen:
Die Schnittmenge zwischen Monatsarchiven liegt inzwischen im einstelligen Prozentbereich und der Fokus auf .de-Domains war eine kostengünstige Approximation der viel aufwendigeren Sprachenerkennung.
Gezählt habe ich
3.224.547.295 unterschiedliche URLs
145.099.211 (4,5%) davon in einer .de-Domain
in insgesamt
69.342.933 unterschiedlichen Domains
5.614.859 (8,1%) davon mit .de-Endung
Die Qualität des Indexes ist bewusst inklusiv gehalten.
Wer forscht, muss sich den interessierenden Ausschnitt aus dem Ausschnitt selbst erzeugen.
Die Datenmengen sind zwar groß, aber noch praktikabel.
Filter- und Blocklisten sind eure Freunde, Verzerrung in den Ergebnissen dann leider die Folge, doch der Common Crawl als solches ist schon nicht ohne Bias.
Lest dazu das hervorragend recherchierte Papier von Stefan Baack.
Oder schaut einfach seinen re:publica-Vortrag.
Als Nächstes wollte ich die Schnittmenge zwischen Common Crawl und meinem eigenen Crawl ermitteln.
Dafür habe ich aus den im Zeitraum Q1/2024 von Rivva erstmalig gefundenen URLs 50.000 zufällig ausgewählt und mit dem Mai-Archiv von Common Crawl verglichen.
Heraus purzelten 4.907 Seiten von 323 verschiedenen Sites (darunter auch ein paar englischsprachige, die mein Bot immer noch verfolgt).
Für die Forschung ist so ein monatlicher Schnappschuss völlig ausreichend.
Viele Anwendungen verlangen jedoch einen Echtzeitindex.
Deshalb hat OpenAI mittlerweile auch seinen eigenen Bot.
Wenn dieser nicht blockiert würde…
Also habe ich zuletzt geschaut, wer hierzulande eigentlich die "GenAI-Bots" überhaupt noch zulässt per robots.txt:
GPTBot wird von keiner der großen Nachrichtenseiten mehr geduldet, Ausnahme sind die öffentlich-rechtlichen Angebote
CCBot dito, nur ein Haus hat ihn noch nicht gesperrt… findet ihr leicht heraus
Google-Extended ebenso durch die Bank blockiert, mit ganz wenigen Ausnahmen
Applebot-Extended ist erst wenige Tage alt, vier Mal habe ich die Sperrklausel mit Stand heute entdeckt
Wer selbst nachsehen möchte, ob die eigenen Seiten im Common Crawl enthalten sind, hier entlang und einfach Sternchen an eure Adresse anhängen.
∀ Nerds: Diese Projektpräsentation von Sebastian Nagel ist ebenfalls exquisit.
– [Originaltitel der Illustration, die als Twitters Failwhale bekannt und zum sympathischen Symbol der Instabilität der Plattform werden sollte]
Twitter hat einmal eines der interessantesten "Nervensysteme" abgebildet.
Twitter: das war der Zündfunke des Echtzeit-Webs, ein neues Internetprotokoll.
Und der Tweet… was für ein schöner Datentyp!
Einst das wohl sozialste Objekt im ganzen globalen Dorf, 140 fein säuberlich abgewogene Zeichen, Poesie im SMS-Kleinformat.
Letzte Nacht nun wurde auch mir das Twitter-API abgedreht.
Die Tweets laufen zwar erst einmal wieder, aber für mehr fehlt natürlich das Geld.
Der alte Zugang soll irgendwie über 30.000 €/Monat kosten, LOL.
– Wieder durchgefallen auch in Runde 14 des Prototype Funds. Daher nur kurz fürs Logbuch festgehalten.
Projekttitel
Mastodon API
Beschreibe dein Projekt kurz.
Als dezentrales und werbefreies Netzwerk wird Mastodon momentan als Twitter-Nachfolger gehandelt.
Mehrere Programmbibliotheken existieren, um den Zugriff auf die offene Programmierschnittstelle (API) von Mastodon-Instanzen zu erleichtern.
Doch ausgerechnet der Mastodon-Client für die Sprache Ruby, in der Mastodon selbst programmiert ist, wird nicht mehr gepflegt.
Die letzte Implementierung ist vier Jahre alt, mittlerweile unvollständig und inkompatibel mit aktuellen Ruby-Versionen.
Ich würde das verkümmerte Open-Source-Projekt gerne forken, aktualisieren und wieder vorantreiben.
Welche gesellschaftliche Herausforderung willst du mit dem Projekt angehen?
Für Twitters Wachstum war die API-Ökonomie einst essenziell.
Viele nützliche und unterhaltsame Bots (von Warn-Apps bis Katzen-Memes) sind einmal aus ersten Programmierenlernen-Projekten hervorgegangen.
Wie offen sich Mastodon als neue Plattform in bestehende Systeme integrieren lässt, entscheidet deshalb mit.
Zur Einordnung: Laut rubygems.org hat die Twitter-Bibliothek über 20 Millionen Downloads; das Mastodon-Paket zum Vergleich hat zurzeit 16 Tausend.
Nachdem Twitter seine API-Nutzung mit neuem Preismodell jetzt gerade für Hobbyisten, kleine Projekte und Forschung unbezahlbar gemacht hat, werden noch mehr Menschen ihre Projekte zu Mastodon umziehen.
Dafür benötigen wir allerdings auf Zeit noch bessere Werkzeuge und Infrastruktur, und das in jeder erdenklichen Programmiersprache der Wahl.
Ruby ist eine der am besten geeigneten Sprachen, um solche Aufgaben schnell und einfach zu automatisieren.
Daher ist es so wichtig, dass die Ruby-Implementierung auf den aktuellen Stand gebracht wird.
Speziell an Programmieranfänger gerichtet soll zudem detaillierte Dokumentation erstellt werden, wie APIs und Bibliothek verwendet werden und wie die Bibliothek selbst um eigene Funktionen erweitert werden kann.
Wie willst du dein Projekt technisch umsetzen?
Die verwendete Programmiersprache ist naturgemäß Ruby.
Zu erstellende Dokumentation und Tutorials sind wohl am besten aufgehoben als Wiki-Seiten auf GitHub selbst.
Welche ähnlichen Ansätze gibt es schon und was wird dein Projekt anders bzw. besser machen?
Der veraltete Code ist unter https://github.com/mastodon/mastodon-api gehostet.
Ehrlich gesagt ist es mir etwas rätselhaft, wie man ein Projekt von solcher Wichtigkeit so stark zur Seite fallen lassen kann.
Vor allem, wenn die eigene Plattform so abhebt wie seit letztem Herbst.
Nun ja, wir brauchen für dieses Projekt dringend einen funktionierenden Open-Source-Prozess.
Darum geht es mir!
Wer ist die Zielgruppe und wie soll dein Projekt sie erreichen?
Das Projekt ist von Entwicklern für Entwickler.
Doch wie bereits erwähnt: Ein eigener kleiner Bot, der relevante Posts aus dem Mastodon-Fediverse herausfischt, die eigene Timeline neu sortiert oder automatisch befüllt, ist ein hervorragendes erstes Programmierexperiment für angehende Coder.
Deshalb soll sich die Dokumentation vor allem an Programmierneulinge richten.
Über Suchmaschinen und bei GitHub bzw. rubygems.org unter dem Suchbegriff »mastodon gem« fündig zu werden, sollte völlig ausreichen, um Sichtbarkeit für das Projekt zu schaffen.
Zudem gibt es eine offizielle »Libraries and implementations«-Liste (unter docs.joinmastodon.org), wo man sich eintragen kann.
Erfahrung, Hintergrund, Motivation, Perspektive: Was sollen wir über dich (bzw. euch) wissen und bei der Auswahl berücksichtigen?
Für mich wäre dieses Projekt nicht ohne riesigen Eigennutz.
Für mein Hauptprojekt greife ich seit 2008 auf Twitters API zurück.
Das fällt jetzt komplett aus, da diese API nun mit Gewalt monetarisiert wird.
Wie viele andere kleinere Datenauswerter und -visualisierer orientiere ich mich daher zu Mastodon um als neue Datenquelle.
Ein Erfolg von Mastodon wäre auch ein Schritt in die richtige Richtung: weg von Big Tech, hin zum IndieWeb.
Skizziere kurz die wichtigsten Meilensteine, die im Förderzeitraum umgesetzt werden sollen.
Die vorhandene Codebasis soll geforkt werden (es sei denn, etwas spricht nach weiterer Analyse dafür, auf der grünen Wiese neu zu beginnen).
Danach werden alle unmittelbaren Probleme behoben, damit das Paket schnellstmöglich wieder einsatzfähig wird.
Anschließend sollte der Umfang um die noch fehlenden API-Endpunkte ergänzt werden. Eine ältere Aufstellung davon ist bereits als GitHub-Issue hinterlegt.
Die gegenwärtige Suite automatisierter Tests ist eigentlich nicht ausreichend und soll umfassend verbessert werden.
Ferner möchte ich die Bibliothek gerne mit Implementierungen in anderen Sprachen homogenisieren.
Parallel wird umfangreiche Dokumentation aller API-Methoden und -Datentypen mit Tutorials speziell für Einsteiger im Wiki erstellt.
– Nur noch fürs Logbuch… hier die Projektskizze meiner Bewerbungen für den Prototype Fund. Ich war mal wieder so zuversichtlich, doch leider abgelehnt (Runde 10 & 11).
Projekttitel:
Plattform für personalisierte Twitter-Agenten und Algorithmenkompetenz
Beschreibe dein Projekt kurz
Das Projekt möchte die Algorithmenkompetenz unter journalistischen und selbstbestimmt informierten Twitter-Nutzer:innen fördern.
Dazu wird eine offene Plattform in Form eines personalisierbaren Informationsassistenten bereitgestellt, die ihre Anwender:innen ermächtigt, den eigenen Rechercheprozess oder die eigene Mediennutzung durch selbst aufgestellte Computeralgorithmen zu unterstützen und zu optimieren.
Nutzer:innen können sich somit – à la „Programming by Example“ – individuelle Werkzeuge und Arbeitsabläufe nach Bedarf maßschneidern und entwickeln gleichzeitig tiefere Intuition für die Funktion und den Einfluss praktischer Algorithmen vielfältiger Anwendungsbereiche.
Welche gesellschaftliche Herausforderung willst du mit dem Projekt angehen?
Algorithmen spielen in der Meinungsbildung inzwischen eine zentrale Rolle. Sobald Maschinen so stark in unser Leben eingreifen und selbstständig entscheiden, wer welche Medieninhalte bevorzugt zu Gesicht bekommt, folgen daraus direkte Auswirkungen auf die Meinungsbildungsprozesse Einzelner und über kurz oder lang auf die deliberative Demokratie.
Zum Ruf nach mehr gesamtgesellschaftlicher Medien- und Informationskompetenz gesellt sich daher zuletzt die Notwendigkeit, »algorithmisches Denken zu verstehen«. Um Entscheidungen zu beurteilen, die Programmierer:innen und ihr Code stellvertretend für Anwender:innen treffen, um mehr Transparenz einzufordern, ethische Standards und höhere Einflussnahme, muss niemand den Algorithmus selbst programmieren können, doch es hilft, sein Grundrezept verstanden zu haben.
Aus diesem Anlass möchte ich mit dem Projekt grundlegendes Wissen über genau jene Algorithmen und ihre Arbeitsweise vermitteln, denen Twitter-Nutzer:innen ohnehin in ihrer täglichen Praxis begegnen. Parallel dazu werden die Anwender:innen in die Lage versetzt, sich nach Baukastenprinzip ein ganz genau auf die persönlichen Bedürfnisse zugeschnittenes Empfehlungssystem selbst zu gestalten – immer im bevorzugten Rahmen irgendwo zwischen Informationsflut und Filterblase.
Wie willst du dein Projekt technisch umsetzen?
Was deutlich dafür spricht, den Prototypen auf Basis von Twitter zu erstellen, ist, dass es von der Zielgruppe aktiv genutzt wird und aus dem öffentlichen Diskurs auch kaum mehr wegzudenken ist. Zudem: Aufgrund offener Programmierschnittstellen sind die Daten großteils öffentlich nutzbar.
Als erste Anbindung halte ich Twitter deshalb für eine gute Wahl. Dennoch soll das System durch Verallgemeinerung wo nötig flexibel und unabhängig bleiben.
Zur Programmierung möchte ich auf Ruby on Rails zurückgreifen. Das Web-Framework hat sich als produktive Umgebung bewiesen, verfügt über eine bunte, lebendige Open-Source-Community und lässt sich leicht in der Cloud hosten oder datensouverän auch selbst.
Für die Bereiche des Maschinellen Lernens dagegen ist es kaum sinnvoll, Ruby einzusetzen, da sich in der Forschung Python etabliert hat. Darum werden diese Anteile mit Scikit-learn geschrieben.
Die grafische Visualisierung der Algorithmen sowie ihrer Parameter erfolgt mithilfe von D3 (Data-Driven Documents).
Nutzer:innen sollen untereinander föderiert Parameter („Sweet spots“) austauschen können. Dazu wird Twitter selbst als Vehikel genutzt, um Daten im JSON-Format als Textnachricht mit „folgenden“ Instanzen zu teilen.
Hast du schon an der Idee gearbeitet? Wenn ja, beschreibe kurz den aktuellen Stand und erkläre die geplanten Neuerungen.
Unser Projekt, gefördert durch den Digital News Innovation Fund, öffnete zwar die Empfehlungsmaschinerie für den Nutzer:innen-Kreis, die algorithmischen Strukturen aber blieben fest vorgegeben.
Der neue Ansatz nun will Algorithmen- wie Parameterwahl demokratisieren.
Welche ähnlichen Ansätze gibt es schon und was wird dein Projekt anders bzw. besser machen?
Entfernt ähnlich sind News-Apps (wie bspw. Nuzzel).
Mein Projekt möchte deren magische Blackbox dagegen gerade aufbrechen.
Inspiriert durch „Explorable Explanations“, Bret Victor und Edward Tufte, möchte ich eine plastische, reaktive Umgebung schaffen, in der Algorithmen aus elf unterschiedlichen Fachgebieten auf spielerische Weise erlernt, getestet und miteinander kombiniert werden können.
Wer ist die Zielgruppe und wie soll dein Projekt sie erreichen?
Das Projekt richtet sich in erster Linie an journalistisch tätige und vergleichbar medienkompetente Wissensarbeiter:innen sowie alle Twitter-Aktivist:innen, welche ein echtes Interesse an der Demokratisierung von Such-, Ranking- und Empfehlungskriterien haben.
In 2009 habe ich 128 Alpha-Tester:innen über mein Projektblog rekrutieren können. Das hat sehr gut funktioniert und würde ich deshalb wieder so machen.
Für immer noch sehr medienwirksam halte ich die Öffentlichkeitsarbeit in Gestalt von Werkstattberichten im Projektblog. Bestenfalls denkt ein Blogartikel per Meilenstein das Vorhaben einmal voraus, ein zweiter Bericht fasst die Resultate und Erkenntnisse abschließend zusammen.
Skizziere kurz die wichtigsten Meilensteine, die im Förderzeitraum umgesetzt werden sollen.
Meilensteine werden in zwölf Iterationen à zwei Wochen ausgeliefert – mit folgenden Etappenzielen:
Elementare Twitter-App fertiggestellt
Aus jedem Bereich im Mittel zwei bis drei relevante Algorithmen angewandt und visualisiert:
Information Retrieval
Wahrscheinlichkeitstheorie
Empfehlungssysteme
Maschinelles Lernen
Computerlinguistik
Zum Bergfest steht somit die Basis zum Suchen-Filtern-Gewichten-Aggregieren.
Soweit die Pflicht – mögliche Kandidaten für die Kür wären:
– Es ist Zeit, die alten Kategorien zu überdenken und ihnen ein modernes Klassifizierungssystem zur Seite zu stellen: Hashtags sind das überlegene Content-Discovery-Tool. Flexibler. Dynamischer. Tagsonomischer :)
Damit Rivva wieder bunter wird, habe ich nebst neuem Webcrawler noch einen Klassifizierer zum maschinellen Hashtaggen entwickelt.
Tauchen nun mehrere Artikel zum Hashtag auf, teilt sich der Nachrichtenstrom und ein neuer Strom/Fluss/Bach und meinetwegen auch Rinnsal entsteht. Alles ist ein Fluss… wie schon unter »Everything is a Stream« skizziert.
Es ist ein Neuanfang. Überflüssig werden die großen Schubladen (#technik, #medien, #politik, usw.) dennoch nicht. Ich sehe die Hashtags mehr als Container orthogonal zu den bestehenden Kategorien und langfristig ungefähr als Auffangbecken für die Living Stories/Structured News.
∀ Nerds: Technisch sind Hashtags Vektoren und bilden einen Wald (disjunkte Bäume).