Rivva-Logo

Federated Search Directories

OpenWebSearch.eu ist das europäische Pendent zu Common Crawl. Das Ziel: ein offener Webindex (+ Services) = Datensouveränität für Europa. Das Projekt ist EU-finanziert und fördert seinerseits Community-Projekte. Leider habe ich den Call zu knapp vor Bewerbungsfrist entdeckt – entsprechend aus der Hüfte geschossen war meine (jetzt abgelehnte) Idee.

Title

Federated Search Directories

Target Field of the Research

Curation of search result sets: Are end users willing / able to establish useful / valuable search directories for their favorite topics / area of expertise?

Federation: Will the pool of directories improve through collaboration?

Approach and main challenges: describe your approach, methodology

This project will investigate the question if old-school search directories, curated by expert users, could be a feasible alternative to today’s paradigm of “10 blue links per page ranked by some algorithm”.

It will empower end users to help their fellow humans navigate the web in a new old way and hopefully show them the beauty and knowledge that the “long tail” of the web entails.

This approach is going back to a time when the web was so small that books where printed with lists of recommended starting points (I still have my copy of O’Reilly’s “The Whole Internet”), when Yahoo established their famous web directory, and when this format was the status quo (I worked on one of the oldest sites which is still online) because literally everybody could do it with a little knowledge about basic HTML.

Approach and main challenges: expected outcomes, relevance

Mainstream search engines are plagued with SEO and redundant content. Also, they have business interests that are counterproductive.

If people can curate and share their own favorite search results / starting points, we might get back to the experience that the web was new and exciting, and not dominated by the same 10 big companies every time you want to look something up.

If we then aggregate this “human” signal, we might find out what people really like. Back to a time when links were endorsements, not paid for.

Describe the contribution to the component(s) in detail

Search Applications: Starting with a known starting point URL or a given query, we give the user the opportunity to mix and match relevant information with similar search results. I’d also like to experiment if a “random walk” component (like that in the original Google rank formula) could be of any help to prevent the problem of “too much choice” on the users.

Users can then build URL bundles that have their own URL, will be hashtag-able, will be searchable, clonable (notifying the original author), can be shared, embedded on other sites and so on. The search result set will become a “social object” with an REST API interface.

With similarity metrics and vector based representations, we could then both recommend new URLs entering the search index and built detail hierarchies and tags-onomies of the user generated content.

Search Paradigms: As described above, this project will be answering the question if search directories are still useful in 2024 or could become more prominent in the future. Can we find new signals / weights in this user generated data?

Common Crawl

Diesen Monat hat Common Crawl seinen 100. Crawl veröffentlicht.

Wer damit nichts anzufangen weiß: Common Crawl ist ein offener Webkorpus, einige Petabytes groß und eben deshalb *die* Trainingsbasis fast aller großen Sprachmodelle. 60% der Vortrainingsdaten für GPT-3 stammten aus einem gefilterten Common Crawl. Generative KI wäre ohne den Common Crawl nicht möglich gewesen. Und das genau ist auch das erklärte Ziel des Non-Profit: Webdaten verfügbar zu machen, auf die sonst nur Big Tech Zugriff hätte.

Ich hatte mir Common Crawl schon lange nicht mehr angesehen und wollte daher einfach mal untersuchen, wie es denn heute um deutschsprachige Inhalte steht. Analysiert wurde das Inkrement #100, eingeschränkt auf den URL-Raum aller .de-Adressen: Die Schnittmenge zwischen Monatsarchiven liegt inzwischen im einstelligen Prozentbereich und der Fokus auf .de-Domains war eine kostengünstige Approximation der viel aufwendigeren Sprachenerkennung.

Gezählt habe ich

in insgesamt

Die Qualität des Indexes ist bewusst inklusiv gehalten. Wer forscht, muss sich den interessierenden Ausschnitt aus dem Ausschnitt selbst erzeugen. Die Datenmengen sind zwar groß, aber noch praktikabel. Filter- und Blocklisten sind eure Freunde, Verzerrung in den Ergebnissen dann leider die Folge, doch der Common Crawl als solches ist schon nicht ohne Bias. Lest dazu das hervorragend recherchierte Papier von Stefan Baack. Oder schaut einfach seinen re:publica-Vortrag.

Als Nächstes wollte ich die Schnittmenge zwischen Common Crawl und meinem eigenen Crawl ermitteln. Dafür habe ich aus den im Zeitraum Q1/2024 von Rivva erstmalig gefundenen URLs 50.000 zufällig ausgewählt und mit dem Mai-Archiv von Common Crawl verglichen. Heraus purzelten 4.907 Seiten von 323 verschiedenen Sites (darunter auch ein paar englischsprachige, die mein Bot immer noch verfolgt).

Für die Forschung ist so ein monatlicher Schnappschuss völlig ausreichend. Viele Anwendungen verlangen jedoch einen Echtzeitindex. Deshalb hat OpenAI mittlerweile auch seinen eigenen Bot. Wenn dieser nicht blockiert würde…

Also habe ich zuletzt geschaut, wer hierzulande eigentlich die "GenAI-Bots" überhaupt noch zulässt per robots.txt:

Wer selbst nachsehen möchte, ob die eigenen Seiten im Common Crawl enthalten sind, hier entlang und einfach Sternchen an eure Adresse anhängen.

∀ Nerds: Diese Projektpräsentation von Sebastian Nagel ist ebenfalls exquisit.

Bluesky und Mastodon

Eine kleine Brücke zum AT Protocol und Fediverse

Es sieht so aus, als werden wir wunderschönen blauen Himmel und strahlenden Sonnenschein genießen…

Allen einen schönen Tag!

Einen Träumer hochheben

[Originaltitel der Illustration, die als Twitters Failwhale bekannt und zum sympathischen Symbol der Instabilität der Plattform werden sollte]

Twitter hat einmal eines der interessantesten "Nervensysteme" abgebildet. Twitter: das war der Zündfunke des Echtzeit-Webs, ein neues Internetprotokoll. Und der Tweet… was für ein schöner Datentyp! Einst das wohl sozialste Objekt im ganzen globalen Dorf, 140 fein säuberlich abgewogene Zeichen, Poesie im SMS-Kleinformat.

Wie lachhaft meine ersten naiven Versuche doch waren, wie genial dagegen der nie wieder erreichte Twitter-Agent (aka Rivva Social), wie witzig die Datenwissenschaft der Emojis.

Letzte Nacht nun wurde auch mir das Twitter-API abgedreht. Die Tweets laufen zwar erst einmal wieder, aber für mehr fehlt natürlich das Geld. Der alte Zugang soll irgendwie über 30.000 €/Monat kosten, LOL.

Mastodon API

Wieder durchgefallen auch in Runde 14 des Prototype Funds. Daher nur kurz fürs Logbuch festgehalten.

Projekttitel

Mastodon API

Beschreibe dein Projekt kurz.

Als dezentrales und werbefreies Netzwerk wird Mastodon momentan als Twitter-Nachfolger gehandelt. Mehrere Programmbibliotheken existieren, um den Zugriff auf die offene Programmierschnittstelle (API) von Mastodon-Instanzen zu erleichtern. Doch ausgerechnet der Mastodon-Client für die Sprache Ruby, in der Mastodon selbst programmiert ist, wird nicht mehr gepflegt. Die letzte Implementierung ist vier Jahre alt, mittlerweile unvollständig und inkompatibel mit aktuellen Ruby-Versionen. Ich würde das verkümmerte Open-Source-Projekt gerne forken, aktualisieren und wieder vorantreiben.

Welche gesellschaftliche Herausforderung willst du mit dem Projekt angehen?

Für Twitters Wachstum war die API-Ökonomie einst essenziell. Viele nützliche und unterhaltsame Bots (von Warn-Apps bis Katzen-Memes) sind einmal aus ersten Programmierenlernen-Projekten hervorgegangen. Wie offen sich Mastodon als neue Plattform in bestehende Systeme integrieren lässt, entscheidet deshalb mit. Zur Einordnung: Laut rubygems.org hat die Twitter-Bibliothek über 20 Millionen Downloads; das Mastodon-Paket zum Vergleich hat zurzeit 16 Tausend.

Nachdem Twitter seine API-Nutzung mit neuem Preismodell jetzt gerade für Hobbyisten, kleine Projekte und Forschung unbezahlbar gemacht hat, werden noch mehr Menschen ihre Projekte zu Mastodon umziehen. Dafür benötigen wir allerdings auf Zeit noch bessere Werkzeuge und Infrastruktur, und das in jeder erdenklichen Programmiersprache der Wahl. Ruby ist eine der am besten geeigneten Sprachen, um solche Aufgaben schnell und einfach zu automatisieren. Daher ist es so wichtig, dass die Ruby-Implementierung auf den aktuellen Stand gebracht wird. Speziell an Programmieranfänger gerichtet soll zudem detaillierte Dokumentation erstellt werden, wie APIs und Bibliothek verwendet werden und wie die Bibliothek selbst um eigene Funktionen erweitert werden kann.

Wie willst du dein Projekt technisch umsetzen?

Die verwendete Programmiersprache ist naturgemäß Ruby. Zu erstellende Dokumentation und Tutorials sind wohl am besten aufgehoben als Wiki-Seiten auf GitHub selbst.

Welche ähnlichen Ansätze gibt es schon und was wird dein Projekt anders bzw. besser machen?

Der veraltete Code ist unter https://github.com/mastodon/mastodon-api gehostet. Ehrlich gesagt ist es mir etwas rätselhaft, wie man ein Projekt von solcher Wichtigkeit so stark zur Seite fallen lassen kann. Vor allem, wenn die eigene Plattform so abhebt wie seit letztem Herbst. Nun ja, wir brauchen für dieses Projekt dringend einen funktionierenden Open-Source-Prozess. Darum geht es mir!

Wer ist die Zielgruppe und wie soll dein Projekt sie erreichen?

Das Projekt ist von Entwicklern für Entwickler. Doch wie bereits erwähnt: Ein eigener kleiner Bot, der relevante Posts aus dem Mastodon-Fediverse herausfischt, die eigene Timeline neu sortiert oder automatisch befüllt, ist ein hervorragendes erstes Programmierexperiment für angehende Coder. Deshalb soll sich die Dokumentation vor allem an Programmierneulinge richten.

Über Suchmaschinen und bei GitHub bzw. rubygems.org unter dem Suchbegriff »mastodon gem« fündig zu werden, sollte völlig ausreichen, um Sichtbarkeit für das Projekt zu schaffen. Zudem gibt es eine offizielle »Libraries and implementations«-Liste (unter docs.joinmastodon.org), wo man sich eintragen kann.

Erfahrung, Hintergrund, Motivation, Perspektive: Was sollen wir über dich (bzw. euch) wissen und bei der Auswahl berücksichtigen?

Für mich wäre dieses Projekt nicht ohne riesigen Eigennutz. Für mein Hauptprojekt greife ich seit 2008 auf Twitters API zurück. Das fällt jetzt komplett aus, da diese API nun mit Gewalt monetarisiert wird. Wie viele andere kleinere Datenauswerter und -visualisierer orientiere ich mich daher zu Mastodon um als neue Datenquelle. Ein Erfolg von Mastodon wäre auch ein Schritt in die richtige Richtung: weg von Big Tech, hin zum IndieWeb.

Skizziere kurz die wichtigsten Meilensteine, die im Förderzeitraum umgesetzt werden sollen.

  1. Die vorhandene Codebasis soll geforkt werden (es sei denn, etwas spricht nach weiterer Analyse dafür, auf der grünen Wiese neu zu beginnen).
  2. Danach werden alle unmittelbaren Probleme behoben, damit das Paket schnellstmöglich wieder einsatzfähig wird.
  3. Anschließend sollte der Umfang um die noch fehlenden API-Endpunkte ergänzt werden. Eine ältere Aufstellung davon ist bereits als GitHub-Issue hinterlegt.
  4. Die gegenwärtige Suite automatisierter Tests ist eigentlich nicht ausreichend und soll umfassend verbessert werden.
  5. Ferner möchte ich die Bibliothek gerne mit Implementierungen in anderen Sprachen homogenisieren.
  6. Parallel wird umfangreiche Dokumentation aller API-Methoden und -Datentypen mit Tutorials speziell für Einsteiger im Wiki erstellt.

Plattform für personalisierte Twitter-Agenten und Algorithmenkompetenz

Nur noch fürs Logbuch… hier die Projektskizze meiner Bewerbungen für den Prototype Fund. Ich war mal wieder so zuversichtlich, doch leider abgelehnt (Runde 10 & 11).

Projekttitel:

Plattform für personalisierte Twitter-Agenten und Algorithmenkompetenz

Beschreibe dein Projekt kurz

Das Projekt möchte die Algorithmenkompetenz unter journalistischen und selbstbestimmt informierten Twitter-Nutzer:innen fördern.

Dazu wird eine offene Plattform in Form eines personalisierbaren Informationsassistenten bereitgestellt, die ihre Anwender:innen ermächtigt, den eigenen Rechercheprozess oder die eigene Mediennutzung durch selbst aufgestellte Computeralgorithmen zu unterstützen und zu optimieren.

Nutzer:innen können sich somit – à la „Programming by Example“ – individuelle Werkzeuge und Arbeitsabläufe nach Bedarf maßschneidern und entwickeln gleichzeitig tiefere Intuition für die Funktion und den Einfluss praktischer Algorithmen vielfältiger Anwendungsbereiche.

Welche gesellschaftliche Herausforderung willst du mit dem Projekt angehen?

Algorithmen spielen in der Meinungsbildung inzwischen eine zentrale Rolle. Sobald Maschinen so stark in unser Leben eingreifen und selbstständig entscheiden, wer welche Medieninhalte bevorzugt zu Gesicht bekommt, folgen daraus direkte Auswirkungen auf die Meinungsbildungsprozesse Einzelner und über kurz oder lang auf die deliberative Demokratie.

Zum Ruf nach mehr gesamtgesellschaftlicher Medien- und Informationskompetenz gesellt sich daher zuletzt die Notwendigkeit, »algorithmisches Denken zu verstehen«. Um Entscheidungen zu beurteilen, die Programmierer:innen und ihr Code stellvertretend für Anwender:innen treffen, um mehr Transparenz einzufordern, ethische Standards und höhere Einflussnahme, muss niemand den Algorithmus selbst programmieren können, doch es hilft, sein Grundrezept verstanden zu haben.

Aus diesem Anlass möchte ich mit dem Projekt grundlegendes Wissen über genau jene Algorithmen und ihre Arbeitsweise vermitteln, denen Twitter-Nutzer:innen ohnehin in ihrer täglichen Praxis begegnen. Parallel dazu werden die Anwender:innen in die Lage versetzt, sich nach Baukastenprinzip ein ganz genau auf die persönlichen Bedürfnisse zugeschnittenes Empfehlungssystem selbst zu gestalten – immer im bevorzugten Rahmen irgendwo zwischen Informationsflut und Filterblase.

Wie willst du dein Projekt technisch umsetzen?

Was deutlich dafür spricht, den Prototypen auf Basis von Twitter zu erstellen, ist, dass es von der Zielgruppe aktiv genutzt wird und aus dem öffentlichen Diskurs auch kaum mehr wegzudenken ist. Zudem: Aufgrund offener Programmierschnittstellen sind die Daten großteils öffentlich nutzbar.

Als erste Anbindung halte ich Twitter deshalb für eine gute Wahl. Dennoch soll das System durch Verallgemeinerung wo nötig flexibel und unabhängig bleiben.

Zur Programmierung möchte ich auf Ruby on Rails zurückgreifen. Das Web-Framework hat sich als produktive Umgebung bewiesen, verfügt über eine bunte, lebendige Open-Source-Community und lässt sich leicht in der Cloud hosten oder datensouverän auch selbst.

Für die Bereiche des Maschinellen Lernens dagegen ist es kaum sinnvoll, Ruby einzusetzen, da sich in der Forschung Python etabliert hat. Darum werden diese Anteile mit Scikit-learn geschrieben.

Die grafische Visualisierung der Algorithmen sowie ihrer Parameter erfolgt mithilfe von D3 (Data-Driven Documents).

Nutzer:innen sollen untereinander föderiert Parameter („Sweet spots“) austauschen können. Dazu wird Twitter selbst als Vehikel genutzt, um Daten im JSON-Format als Textnachricht mit „folgenden“ Instanzen zu teilen.

Hast du schon an der Idee gearbeitet? Wenn ja, beschreibe kurz den aktuellen Stand und erkläre die geplanten Neuerungen.

2009 habe ich bereits an einem intelligenten Twitter-Werkzeug gearbeitet.

Der damalige Ansatz besaß jedoch vergleichsweise wenig Möglichkeiten zum Individualisieren vonseiten der Benutzer:innen.

In 2016 dann habe ich mit und für WirtschaftsWoche ein Recherchewerkzeug mit Newsletterversand entwickelt.

Unser Projekt, gefördert durch den Digital News Innovation Fund, öffnete zwar die Empfehlungsmaschinerie für den Nutzer:innen-Kreis, die algorithmischen Strukturen aber blieben fest vorgegeben.

Der neue Ansatz nun will Algorithmen- wie Parameterwahl demokratisieren.

Welche ähnlichen Ansätze gibt es schon und was wird dein Projekt anders bzw. besser machen?

Entfernt ähnlich sind News-Apps (wie bspw. Nuzzel).

Mein Projekt möchte deren magische Blackbox dagegen gerade aufbrechen.

Inspiriert durch „Explorable Explanations“, Bret Victor und Edward Tufte, möchte ich eine plastische, reaktive Umgebung schaffen, in der Algorithmen aus elf unterschiedlichen Fachgebieten auf spielerische Weise erlernt, getestet und miteinander kombiniert werden können.

Wer ist die Zielgruppe und wie soll dein Projekt sie erreichen?

Das Projekt richtet sich in erster Linie an journalistisch tätige und vergleichbar medienkompetente Wissensarbeiter:innen sowie alle Twitter-Aktivist:innen, welche ein echtes Interesse an der Demokratisierung von Such-, Ranking- und Empfehlungskriterien haben.

In 2009 habe ich 128 Alpha-Tester:innen über mein Projektblog rekrutieren können. Das hat sehr gut funktioniert und würde ich deshalb wieder so machen.

Für immer noch sehr medienwirksam halte ich die Öffentlichkeitsarbeit in Gestalt von Werkstattberichten im Projektblog. Bestenfalls denkt ein Blogartikel per Meilenstein das Vorhaben einmal voraus, ein zweiter Bericht fasst die Resultate und Erkenntnisse abschließend zusammen.

Skizziere kurz die wichtigsten Meilensteine, die im Förderzeitraum umgesetzt werden sollen.

Meilensteine werden in zwölf Iterationen à zwei Wochen ausgeliefert – mit folgenden Etappenzielen:

  1. Elementare Twitter-App fertiggestellt

Aus jedem Bereich im Mittel zwei bis drei relevante Algorithmen angewandt und visualisiert:

  1. Information Retrieval
  2. Wahrscheinlichkeitstheorie
  3. Empfehlungssysteme
  4. Maschinelles Lernen
  5. Computerlinguistik

Zum Bergfest steht somit die Basis zum Suchen-Filtern-Gewichten-Aggregieren.

Soweit die Pflicht – mögliche Kandidaten für die Kür wären:

  1. Spieltheorie
  2. Kollektive Intelligenz
  3. Komplexe Dynamische Systeme
  4. Soziale Netzwerkanalyse
  5. Informationstheorie
  6. Genetische Algorithmen

(Reihenfolge variabel)

»Everything and its Hashtag«

Es ist Zeit, die alten Kategorien zu überdenken und ihnen ein modernes Klassifizierungssystem zur Seite zu stellen: Hashtags sind das überlegene Content-Discovery-Tool. Flexibler. Dynamischer. Tagsonomischer :)

Damit Rivva wieder bunter wird, habe ich nebst neuem Webcrawler noch einen Klassifizierer zum maschinellen Hashtaggen entwickelt.

Tauchen nun mehrere Artikel zum Hashtag auf, teilt sich der Nachrichtenstrom und ein neuer Strom/Fluss/Bach und meinetwegen auch Rinnsal entsteht. Alles ist ein Fluss… wie schon unter »Everything is a Stream« skizziert.

Es ist ein Neuanfang. Überflüssig werden die großen Schubladen (#technik, #medien, #politik, usw.) dennoch nicht. Ich sehe die Hashtags mehr als Container orthogonal zu den bestehenden Kategorien und langfristig ungefähr als Auffangbecken für die Living Stories/Structured News.

∀ Nerds: Technisch sind Hashtags Vektoren und bilden einen Wald (disjunkte Bäume).

Rivvabot/2.0: Nach 14 Jahren ein neuer Webcrawler

Ich habe die Zeit seit dem Spendenruf also damit verbracht, unter anderem einen neuen Webcrawler zu schreiben.

Nummer eins war das allererste Commit ins Git-Repository (* welches an diesem 22.1.2007 bloß »memetracker« hieß) und verfolgte das Grundprinzip, dass Vertrauen transitiv vererbt wird: „Von einer Menge vertrauenswürdiger Quellen ausgehend, folge ihren Empfehlungen (Outlinks) und zähle die so gefundenen Seiten – je nach Eigenschaft – zur vertrauten Menge. (Wiederhole unendlich.)“

Der neue Bot kombiniert nun ein gutes Dutzend solcher Strategien. Am wichtigsten für den neuen Ansatz war jedoch, auf welche Weise die Community und Vernetzung – jede Seite umgebend – ausschlaggebender würde. Wie das dann künftig zu mehr Vielfalt führen soll, dazu morgen in »Everything and its Hashtag«.

Rivva: Ohne eure Spende geht es nicht mehr

Ich bin ab jetzt auf die freiwillige Leser:innenfinanzierung angewiesen. Deine Spende hilft, das Projekt in Schuss zu halten, zu verbessern und auszubauen.

Liebe Leserin, lieber Leser,

seit 2007 versucht Rivva, euch einen flotten aktuellen Netz-Überblick zu geben über die am meisten geteilten Artikel und diskutierten Themen – regelmäßig auch jenseits des bequemen Tellerrands.

So eine Seite zu finanzieren, ist und war nie einfach:

Je besser sie funktioniert, desto schneller schickt sie seine Leser:innen weg zu anderen Seiten.

Es fehlt die menschliche Stimme, die man als Nutzer:in mit dem Projekt verbindet. (Der gesprochene Podcast und das persönliche Blog sind hier gegenüber einem suchmaschinenartigen Dienst weit im Vorteil.)

Es entsteht das häufige Missverständnis, dass ja alles automatisch läuft.

Wozu also braucht das Projekt Geld?

In Wahrheit macht ein Projekt wie dieses eine Mordsarbeit – allein deshalb, weil sich das Internet und das Verhalten der Menschen im Internet ständig ändert… und Rivva immer mitziehen muss.

Es gibt dafür den schönen Begriff der Red-Queen-Hypothese: Alice (im Wunderland) trifft im Fortsetzungsbuch auf die Rote Königin, die ihr erklärt: „Hierzulande musst du so schnell rennen, wie du kannst, wenn du am gleichen Fleck bleiben willst.“

Die meiste Arbeit ist daher leider gar nicht direkt sichtbar: eine eigene Webcrawler-Infrastruktur (zum Abgrasen der vielen Quellen), hausinterne Machine-Learning-Modelle (für Dutzende verschiedener Aufgaben und Statistiken), mehrere gemietete Server (zur Verteilung des Ganzen), eine riesige Datenbank (als Abbild des Internets der vergangenen bald 14 Jahre).

Warum Rivva auf deine Mithilfe angewiesen ist

Im Moment sieht leider alles danach aus, als wäre es ohne breitere Unterstützung nicht mehr zu wuppen.

2020 hat mich (wie viele) voll erwischt. Im Frühjahr habe ich meine letzten Aufträge verloren: Projekte, die von Rivva-Technologien profitiert und sie teils mitfinanziert haben.

Ich finde ja, dass es mindestens einen solchen Dienst speziell für den deutschsprachigen Raum geben sollte.

Aber ohne eure Hilfe geht es nicht mehr. Überlegt doch bitte mal, ob ihr das Projekt nicht mit einem für euch passenden Betrag unterstützen möchtet.

Das ist entweder möglich durch eine Mitgliedschaft über Steady oder eure PayPal-Spende an meine E-Mail frank.westphal@gmail.com Wirklich jeder Beitrag hilft.

Leider kann ich euch keine Spendenbescheinigung ausstellen. Rivva ist nicht gemeinnützig; als finanzielle Zuwendung wird die Spende ordnungsgemäß als Einnahme versteuert.

Wenn ihr bereits eine Steady-Mitgliedschaft abgeschlossen habt, meinen größten Respekt! Überlegt doch bitte mal, ob ihr nicht auf das nächst größere Paket "aufrunden" möchtet. Schreibt mir gerne, was ihr euch als Gegenleistung für die verschiedenen Paketpreise wünschen würdet. Vielleicht lässt sich da was machen.

Von Herzen Dank für deinen Support,

Frank

Anomaly detection for News: Finding new insights while combating misinformation

Leider bin ich in der letzten Google-DNI-Runde ebenfalls gescheitert. Fürs Logbuch… hier die Projektskizze:

Project title: Anomaly detection for News: Finding new insights while combating misinformation

Brief overview:

From a news standpoint, anomalies are extremely interesting because unexpected events, patterns and trends are very newsworthy in the best case or a sign of error and manipulation in the worst case.

Anomaly detection is the identification of rare items, events or observations which should raise suspicion (and curiosity) by differing significantly from the majority of the data. Anomalies are also referred to as outliers, novelties, noise, deviations and exceptions. [according to Wikipedia]

Implementing anomaly detection for news would help finding new insights while combating misinformation.

Detailed description:

Interesting is what is unexpected. Automatic anomaly detection can help identify what's the norm to flag the unexpected. The proposed tool works on a language level but mainly and most importantly on the information content, i.e. on facts hidden in deeper layers of story text.

It builds on my DNI project from round 2 (Structured News: Atomizing the news into a browsable knowledge base for structured journalism) to extract and transform all kinds of information contained in news text into normalized and highly structured data structures that intelligent algorithms are able to utilize.

The goal would be to monitor and track fast-paced news feeds and news wire for outliers, that is changes in the underlying phenomenon that is out of the ordinary but could not be observed without the comparison with larger background information that only automation can process.

The prototype would start with data types I have already worked with during the before mentioned DNI project. Reacting on the following types of changes would be my first and primary focus:

Anomaly detection could be an assistent tool for the newsroom and the individual journalist. It could be a new factor in ranking news and prioritizing effort. It could be of great value to generate novel ideas for news stories and data journalism. It could be a further component in the anti-fakenews campaign.

What makes your project innovative?

Anomaly detection is well-known for time series data, e.g. fluctuating numbers over time, like stock prices. It is also known for log file analysis, e.g. network security. I have not found many examples that take natural text as raw input. Applying the ideas to the news context seems to be a relatively unexplored and therefore worthwhile idea.

To make the tool as useful as possible it has to be able to look much deeper into story text and comparison than usually possible. It has to look beyond the language level into the actual information content. But this problem has been solved to the most part during my former DNI project (Structured News: Atomizing the news into a browsable knowledge base for structured journalism) so I can build on this.

The tool will learn from history but also uses external sources like Wikipedia for background checks. To establish a kind of fact database I will use a number of natural language processing and machine learning approaches I'm already familiar with and I'd also like to try some newer deep learning techniques that seem very promising.

My goal is to deliver a service to analyze an existing article collection as a baseline to compare new incoming stories against. The tool would flag and evaluate before mentioned changes in the underlying data. An additional user interface allows the user to define criteria in different categories (s)he is particularly interested in.

Basis for the project will be 12 years worth of web news crawl data collected by my service rivva.de.

How will your Project support and stimulate innovation in digital news journalism? Why does it have an impact?

This project adds a new dimension to identify novel information buried in a news stream while at the same time flagging probably false information by looking much deeper into an article's text than usually feasible.

It should be a great addition to the repertoire of tools at the fingertips of journalists and newsrooms. It cuts and filters through news feeds, news wire and individual articles in a very special manner. It takes information theoretic measures to quantify the interestingness of news to uncover most unexpected info.

Therefore, it should be a great source for new insights, story ideas and data journalism projects. Of course it should also help flag human error or consumer manipulation.

Because the tool looks for unexpected events, patterns and trends, it plays an important role as a monitoring/alarming system. That's where anomaly detection has traditionally been used for. So, integration with other systems used for this purpose (e.g. a dashboard, Slack agent or Twitter bot) could be worthwhile.

Competition:

I have only found a research paper from 2014 (http://www.aclweb.org/anthology/C14-1134) that takes part of the suggested approach. My project is much more interested in movement in data buried in news texts in forms and magnitude that only automated tasks can handle the flow of new information.

 

Archiv: 2024 (3)   2023 (2)   2021 (3)   2020 (1)   2019 (2)   2018 (5)   2017 (3)   2016 (3)   2015 (1)   2014 (2)   2013 (8)   2012 (11)   2011 (4)   2010 (8)   2009 (18)   2008 (12)   2007 (17)   alle (103)