Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

t3n 15

Semantischer Content mit Open Calais: Inhalte automatisiert mit Metadaten anreichern

    Semantischer Content mit Open Calais: Inhalte automatisiert mit Metadaten anreichern

Website des Calais-Projekts Einen vielversprechenden Beitrag zur Nutzung des stetig wachsenden „Web of Data“ zeigt Open Calais. Der kostenlose Web Service analysiert unstrukturierte, natürlichsprachige Texte, extrahiert daraus Metadaten zu im Inhalt vorkommenden Personen, Organisationen, Orten, Fakten und Ereignissen und analysiert die Beziehungen dieser Entitäten zueinander. Die neue Version 4 verlinkt diese Metadaten gemäß Linked-Data-Standards mit externen Ressourcen wie zum Beispiel Wikipedia.

Als einer der interessantesten Ansätze auf dem Gebiet semantischer Webtechnologien erwies sich in den letzten Monaten das Textanalyse-Tool Calais. Entwickelt wurde es von dem auf Textmining und Natural Language Processing spezialisierten Softwarehaus ClearForest, das 2007 vom Medienkonzern Thomson Reuters gekauft wurde. Die Entwickler stellen mit Open Calais einen kostenlosen Web Service zur Verfügung, der sowohl über REST- als auch SOAP-Schnittstellen verfügt.

Zur Analyse schickt man den unstrukturierten, natürlichsprachigen Text an den Web Service und erhält semantische Metadaten über die Struktur des Inhalts zurück. Calais durchforstet die Blog-Postings oder beliebigen Nachrichtenartikel nach Personen, Orten, Unternehmen etc. und ordnet sie dem entsprechenden Typ zu. Die Auszeichnung erfolgt dabei vorzugsweise mit dem Resource Description Framework (RDF), dem Datenmodell des semantischen Webs, auch ein JSON-Output ist möglich.

Stellenweise können auch Fakten und Ereignisse extrahiert werden [1]. Dabei handelt es sich um Zusammenhänge zwischen den einzelnen Entitäten und die Art ihrer Beziehungen. Wird beispielsweise in einem Artikel eine Änderung im Management einer Firma erwähnt, erkennt Calais im Idealfall, dass zwischen den genannten Personen und dem Unternehmen ein Arbeitsverhältnis besteht beziehungsweise bestand.

Bei Unternehmen und Orten versucht Calais, Synonyme zu identifizieren und einander zuzuordnen. So durchschaut die Anwendung, dass es sich bei „IBM“, „International Business Machines“ und „IBM Corp.“ um mehrere Bezeichnungen für ein und die selbe Entität handelt. Ebenso probiert sie, verschiedene Entitäten, die jedoch mit dem selben Wort bezeichnet werden (Homonyme), zu unterscheiden. Um solche überaus schwierigen Disambiguierungen vorzunehmen und zum Beispiel herauszufinden, ob es sich bei „Cambridge“ um die Stadt in England oder jene in Massachusetts handelt, analysiert Calais den umliegenden Text und greift auf öffentliche Datenquellen zurück.

Zu jedem extrahierten Konzept liefert die Software eine Relevanzschätzung ab. Dabei gibt eine Prozentzahl an, wie wichtig ein Begriff zur Charakterisierung eines Texts ist. Pro Dokument erhält man außerdem eine ID, mit der die extrahierten Metadaten abgerufen und der Öffentlichkeit zugänglich gemacht werden können.

In der derzeitigen Version kann Calais nur englisch- und französischsprachige Texte analysieren, eine Unterstützung von Deutsch will ClearForest in 2009 realisieren.

Bitte beachte unsere Community-Richtlinien

Schreib den ersten Kommentar!

Du musst angemeldet sein, um einen Kommentar schreiben zu können.

Jetzt anmelden

Finde einen Job, den du liebst