Testfahrt von Open Calais
Wie gut funktioniert nun die Metadatenextraktion von Calais in der Praxis? Darüber kann man sich in der Online-Demo selbst einen ersten Eindruck verschaffen [7] oder eine Reihe von Tools für Browser, Desktop & Co. ausprobieren [8].
Die beispielhafte Analyse eines BBC-Nachrichtenartikels [9] zeigt die Möglichkeiten und Beschränkungen von Calais. Die im Artikel erwähnten Autohersteller Ford und Tata werden erkannt und auch richtig disambiguiert. Somit finden sich im RDF-Output die jeweiligen URIs, unter denen man sich weitere Informationen über diese Firmen anzeigen lassen kann. Ratan Tata wird als Person identifiziert, ebenso wurde richtig festgestellt, dass er Präsident von Tata ist und ein Zitat von ihm extrahiert. Das Unternehmen Jaguar Land Rover erkennt Calais allerdings nicht.
Die Anwendung versteht, dass in dem Beitrag von einer Unternehmensübernahme berichtet wird. Diesen Artikel hätte man mit einer einfachen Volltextsuche nach dem Wort „Acquisition“ nicht gefunden, da der Begriff im gesamten Text nicht vorkommt. Während die übernehmende Firma und das Übernahmedatum erkannt werden, fehlt die Information, welche Firma übernommen wurde. Geht man den Ergebnissen noch genauer nach, sieht man, dass zum Beispiel zur Entität Ford eine Verknüpfung mit DBpedia vorhanden ist, bei Tata hingegen nicht.
Fazit
Open Calais bietet bereits jetzt einen sehr interessanten Service, der beständig erweitert und verbessert wird. Obwohl die extrahierten Metadaten oft unvollständig und manchmal auch fehlerhaft sind, produziert die Analyse überraschend brauchbare Ergebnisse.
Die Identifikation von Entitäten, vor allem von Personen, Ländern und Organisationen funktioniert in vielen Fällen gut, doch man muss auch mit falsch-negativen oder falsch-positiven Ergebnissen rechnen. So vermutet Calais beispielsweise in einem Artikel über George Bush im simplen Fragesatz „Did Bush cause the financial crisis?“ eine Person namens „Did Bush“.
Fakten aus Sätzen zu extrahieren, klappt seltener, im beschriebenen Use Case zu Unternehmensübernahmen in New York würde wohl eine nicht unwesentliche Anzahl an eigentlich passenden Artikeln unentdeckt bleiben. Anwendungen solcher Art müssten also fehlertolerant sein. Die extrahierten Fakten beziehen sich zudem bisher hauptsächlich auf für Nachrichten relevante Konzepte, es werden aber laufend neue Faktenkategorien hinzugefügt.





3 Antworten
von Semantischer Content mit Open Calais: In… 21.08.2009 (11:36Uhr) 1.
[...] finden. Darin erklärt Autor Thomas Schandl, was der Service kann und was noch nicht funktioniert. » weiterlesen « vorheriger [...]
von Daily Lifestream Digest for August 25th… 25.08.2009 (21:12Uhr) 2.
[...] Semantischer Content mit Open Calais: Inhalte automatisiert mit Metadaten anreichern » t3n Magazin [...]
von Der semantische Webservice OpenCalais |… 03.11.2009 (10:05Uhr) 3.
[...] http://t3n.de/magazin/semantischer-content-open-calais-eigenen-fremden-content-221444/ Share this on del.icio.usDigg this!Share this on RedditStumble upon something good? Share it on StumbleUponShare this on TechnoratiPost this to MySpaceShare this on FacebookTweet This!Subscribe to the comments for this post?Add this to Mister Wong [...]