Structured News, Monat 3: Eigennamenerkennung, facettierte Suchabfragen
– Welche Personen, Organisationen, Orte und Produkte werden im Text erwähnt? In diesem Monat machen wir ein Häkchen an die wichtigsten Named Entities. Wobei uns stets die Mehrdeutigkeit von Sprache in die Quere kommt. Weshalb wir nächsten Monat noch unsere Daten bereinigen und annotieren werden.
Nicht ohne Sprachwitz titelte Google zur Einführung seiner semantischen Knowledge-Graph-Technologie einst "Things, not strings". Die Identifikation und Klassifikation von Eigennamen zählt von je her zu den Standardaufgaben in der Informationsextraktion.
Eigennamenerkennung
Ein Eigenname ist eine Folge von Wörtern, die sich auf eine real existierende Entität bezieht. Von Interesse sind zum Beispiel:
- Personen
- Organisationen
- Orte
- Produkte
Doch selbst die im vergangenen Monat behandelten numerischen Typen fallen im Information Retrieval gewöhnlich in das weite Themenfeld der sogenannten Named Entities:
- Datumsangaben
- Zeitangaben
- Währungsangaben
- Prozentangaben
Sobald wir diese Informationen automatisiert in Freitexten ein jeder Couleur entdecken können, lassen sich darüber schon verhältnismäßig genau die journalistischen W-Fragen einkreisen: wer? was? wo? wann? wie? warum?
Wir können sogar noch weiter gehen und jede Zeichenkette, die jemandem oder etwas einen Namen gibt, als Named Entity auslegen – je nach Anwendungskontext: chemische Formeln, gestalterische Arbeiten, historische Ereignisse, musikalische Werke, Filme, Gesetzestexte, Krankheitsbilder, Kunstwerke, Publikationen, Rezepte uvm.
Das Potenzial ist nahezu unerschöpflich, insbesondere wenn wir unsere Daten anschließend mit einem Schema – einem formalen Modell für die Struktur der Daten – ausstatten, um dieses dann kumulativ mit Metadaten auszuschmücken.
Eine Problematik ergibt sich daraus, sprachliche Zeichen (Eigennamen) auf eine Interpretation hin (das Bezeichnete) aufzulösen.
Sprache kann mehrdeutig sein (zum Teil gewollt). Nicht selten bezeichnen unterschiedliche Worte das selbe Objekt (gilt es zu normalisieren) oder es meinen identische Worte gänzlich verschiedene Objekte (zu disambiguieren).
Hinzu kommen die pathologischen Beispiele. Die Europäische Union können wir vorrangig gewiss als Organisation kategorisieren, als Wirtschaftsraum betrachtet könnte man sie jedoch gleichermaßen als Ort einordnen. Im Einzelfall und ohne Kontext meist selbst für Menschen unentscheidbar.
Facettierte Suchabfragen
Die Suchfunktion wurde indes zum Drilldown um eine Facettennavigation erweitert.
Wie wir sofort einsehen müssen, treten die oben genannten Schwierigkeiten zutage: Dubletten, die sich nur in ihrer Oberflächenstruktur voneinander unterscheiden, semantisch allerdings die selbe Sache repräsentieren.
Solche Koreferenzen zu berücksichtigen, wird eine der Aufgaben im nächsten Monat sein.