Rivva-Logo

Structured News, Monat 4: Begriffsklärung benannter Entitäten, Normalisierung, Verknüpfung

Mehrdeutigkeit, in Sprache in hohem Maße gegeben und in Schlagzeilen und Kurznachrichten vielfach sogar mit Vorsatz verwendet, stellt sprachverarbeitende Programme vor schwierigste Probleme. Mithilfe großer Wissensbasen und statistischer Inferenz können wir jedoch fehlende Weltkenntnis und gesunden Menschenverstand in Teilen simulieren.

Dieser Monat ging allein an die Datenbereinigung. Die letztes Mal extrahierten Entitäten wollten noch vereindeutigt, standardisiert und semantisch annotiert werden.

Für verlässliche Daten zu sorgen, gehört zu den wichtigsten und auch lohnenswertesten Aufgaben. Schlechte Datenqualität zieht im Allgemeinen gravierende Folgewirkungen auf anschließende Prozesse nach sich, immerhin kann jede Aus- und Verwertung nur so gut sein wie die zuvor erhobenen Daten.

Begriffsklärung benannter Entitäten

Problem Nummer eins war, dass Begriffe mehrere Bedeutungen haben und aus dem Kontext heraus auf eine Interpretation geschlossen werden muss. Identische Zeichen bezeichnen hier also unterschiedliche Objekte.

Normalisierung

Der umgekehrte Fall tritt ein, wenn die selbe Sache mehrere Bezeichnungen kennt. Wir möchten diese Duplikate erkennen, normieren und zusammenlegen (dafür Identifikator vereinbaren).

Verknüpfung

Zu guter Letzt wollen wir alle unsere Datensätze möglichst tief in einer existierenden Ontologie oder Wissensbasis verankern. Als Ressourcen dienen sich hier Wikipedia oder Linked-Open-Data-Projekte wie DBpedia an.

Diese Wikifizierung schafft den Zugang zu einer Vielzahl impliziter Informationen, die im annotierten Text nicht explizit sind, und ermöglicht somit auch, eine Reihe von Aufgaben zu lösen, die sich aufgrund des alleinigen Textes eben nicht beantworten ließen.

Begriffsklärung benannter Entitäten

Ein simpler Trick zur Verbesserung eigens betriebener Suchfunktionen ist allgemein, die einleitenden Wikipedia-Paragraphen aller im Dokument erwähnten Begriffe als Mini-Dokument verkettet mit angemessenem Gewicht einfach mit in den Suchindex zu werfen.

 

Archiv: 2024 (4)   2023 (2)   2021 (3)   2020 (1)   2019 (2)   2018 (5)   2017 (3)   2016 (3)   2015 (1)   2014 (2)   2013 (8)   2012 (11)   2011 (4)   2010 (8)   2009 (18)   2008 (12)   2007 (17)   alle (104)