Structured News, Monat 1: Zitatedatenbank, Sätze & Sprache
– In dieser Artikelreihe möchte ich aus meinem Google-DNI-Projekt berichten und schon ein paar vorläufige Resultate vorstellen. Im ersten Teil beschreibe ich den Aufbau der Zitatesammlung und führe erste linguistische Konzepte ein.
Die begründende Idee ist, journalistische Inhalte als strukturierte Daten und strukturierte Daten als journalistische Inhalte zu betrachten.
Dazu zerlege ich den Text zunächst in seine Grundbestandteile und setze sie anschließend zu einem Wissensbaum zusammen. Liegen Inhalte in so atomisierter Form vor, lassen sie sich wie Lego-Bausteine verwenden und flexibel neu kombinieren.
Dies wiederum ermöglicht einen hohen Grad persönlicher Medien, wo eine Geschichte für jede LeserIn individuell ausgespielt werden kann, abhängig von ihrem Gerät, ihrem Zeitbudget und ihren Informationsbedürfnissen. Die Entbündelung der Nachricht könnte somit effektiv eine Antwort auf die Entbündelung von Nachrichten sein.
Das Gesamtvorhaben ist recht umfassend hier im Blog skizziert: Structured News: Atomizing the news into a browsable knowledge base for structured journalism (November 2016).
Zitatedatenbank
Mein erster Datentyp sollten Zitate direkter Rede sein.
Zum einen wollte ich darüber meine technische Pipeline so weit wie möglich unter Dach und Fach bekommen, und Zitate sind - selbst bei kompliziertem Satzbau - noch einfach genug und berühren dennoch fast alle Verarbeitungsschritte.
Zum anderen liefert die Zitatesammlung interessante Erkenntnisse, kann man mit ihrer Hilfe doch beispielsweise die politischen Positionen der Parteien in Aspekten vergleichen oder ihren Sinneswandel zeitlich rückverfolgen. Beispiel "Mietpreisbremse":
Später in Monat 3 wird noch die Person dazu erkannt und in Monat 5 auch die Beziehung zur Rede, ob jemand also etwas "sagt", "behauptet", "vermutet", "warnt", "kritisiert", ...
Finale Datenstruktur des Wortlauts ist schließlich ein 3-Tupel (oder semantisches Tripel aus Subjekt, Prädikat, Objekt):
("Steffen Sebastian", "sagt",
"De facto läuft die Mietpreisbremse ohne Mietspiegel ins Leere")
Sätze & Sprache
Nur kurz am Rande, da weniger interessant, aber Voraussetzung und oftmals hilfreich: Den Text vorher in Sätze segmentieren und für jeden Satz die primäre Sprache ermitteln.
Leider gibt es manchmal gegenseitige Abhängigkeiten zwischen diesen beiden Aufgaben. Besonders bei Texten aus sozialen Medien kann die Mehrarbeit leicht überhandnehmen.