SemTech 2011: Google, Bing und Yahoo pushen das Semantic Web

Das am heißesten diskutierte Thema der größten Semantic Web Anwenderkonferenz kam aus einer unerwarteten Richtung. Wenige Tage vor Eröffnung der SemTech in San Francisco (5. bis 9. Juni) gingen Google, Bing und Yahoo mit einer neuen Initiative online, die in der Semantic Web Community derzeit sehr kontrovers diskutiert wird.

Semantic Web: Google, Bing und Yahoo ziehen an einem Strang

Die drei große Suchmaschienenbetreiber stellen auf schema.org Webmastern ein Vokabular zur Verfügung, mit dem Inhalte auf den Seiten auszeichnet werden können. Damit kann z. B. ein Movie-Portal-Betreiber den Titel, die Laufzeit und die Bewertungen eines Films explizit angeben. Die Suchmaschine erkennt die so ausgezeichneten Inhalte und kann beispielsweise auf Kochrezept-Anfragen präziser und informationsreicher antworten. Das erklärte Ziel mit der nun gestarteten Initiative ist es, das Leben der Webmaster im Umgang mit semantischem Markup zu erleichtern. Warum also die Aufregung in der Semantic-Web-Community?

semtech

Dies hat zwei Gründe: Zum einen führen die Suchmaschinenbetreiber ein völlig neues Vokabular ein, anstatt die ausgereiften und etablierten, wie zum Beispiel FOAF oder GoodRelations wiederzuverwenden. Zum anderen setzen sie auf Microdata (Teil des W3C HTML5 Working Drafts) als Auszeichnungsformat anstatt auf RDFa (W3C Recommendation) oder Microformats. Während RDFa und Microformats bereits auf vielen Webseiten eingesetzt wird und insbesondere RDFa im vergangenen Jahr einen enormen Zuwachs verzeichnete, führt Microdata noch ein Schattendasein. kündigte zunächst an, vorwiegend dieses Format zu unterstützen. Entsprechend heiß her ging es in der extra einberufenen Session zu. Der anwesende Vertreter von Google sicherte jedoch zu, dass alle drei Auszeichnungsformate weiterhin unterstützt werden. Außerdem soll die Entwicklung des Vokabulars offener als bisher geschehen.

Es bleibt nun abzuwarten, wie Webmaster und Webseitenbetreiber dieses Angebot der Suchmaschinenbetreiber annehmen. Es ist auf jeden Fall bemerkenswert, dass sich die „drei Großen“ überhaupt auf eine gemeinsame Richtung geeinigt haben und dass alle drei im offensichtlich großes Potenzial sehen. Angesichts des zunehmenden Problems von Spam in Suchergebnissen und den Ausblick auf neue Möglichkeiten der Suche (z. B. Facetted-Search) sicher ein wichtiger Schritt.

Real World Semantic Web

Die BBC setzte bereits letztes Jahr für ihre Worldcup-Site ausschließlich auf Semantic-Web-Technologien. Die Inhalte werden semantisch ausgezeichnet, mit externen Daten (unter anderem von Wikipedia) angereichert und zu den eigentlichen Seiten aggregiert. Durch die Kombination einer leistungsfähigen Persistenzschicht in Form eines Triple-Stores mit einer Kette von Caching- und Lastverteilungsmaßnahmen konnten die über 1,5 Millionen Page-Impressions pro Tag verarbeitet werden. Damit hat die BBC die Tauglichkeit für stark frequentierte Seiten nachgewiesen. Aufgrund der positiven Erfahrungen, ist nun geplant, Semantic-Web-Technologien auch für andere Bereiche der Online-Präsenz der BBC einzusetzten, wie beispielsweise für Olympia 2012.

Wie wichtig gute Vokabularien sind, sieht man an der Diskussion um die Suchmaschinen. Für den Bereich des Online-Journalismus hat daher das International Press Telecommunications Council (IPTC), als wichtigstes Standardisierungsgremium im Nachrichtenbereich, vor Kurzem einen Entwurf von rNews veröffentlicht. Dieses Vokabularium kann verwendet werden, um Metadaten direkt in Nachrichten einzubetten. Derartig ausgezeichnete Meldungen sind maschinenlesbar und können damit neu aggregiert werden. Obwohl der Standard erst im Entwurf vorliegt, lässt sich schon absehen, dass in Zukunft kaum eine Nachrichtenagentur um semantisch ausgezeichnete Artikel herumkommt. Die New York Times ist hier als Vorreiter mit an Bord.

Fazit: Das Semantic Web wird zur Gegenwart

Neben dieser Diskussion wurde eines deutlich: Das Semantic Web hat endgültig den Elfenbeinturm verlassen. Dies zeigen unter anderem Erfolgsstories, wie die der British Broadcasting Company (BBC) oder der New York Times. Normale Surfer werden von den zugrundeliegenden Technologien und dem Ringen um die beste Lösung nichts bemerken. Sie werden sich nur über personalisiertere Webseiten und neue Funktionen freuen.

Weiterführende Links:

Weitere Artikel zu Semantic Web, Yahoo!, bing und Google

Tags: , , , , , , ,

Das interessiert dich bestimmt auch

5 Answers

  1. von Norman 14.06.2011 (20:00Uhr) 1.

    Irgendwie hab ich ein Problem damit: der Overhead ist so immens, dass man mehr Zeit damit beschäftigt ist den Content auszuzeichnen als überhaupt Content zu generieren.. und für was nochmal genau? Damit er besser gefunden wird? Naja..

  2. von Sven Reuter via facebook 14.06.2011 (21:24Uhr) 2.

    Zeit wird's, dass Semantic Web endlich gescheit Einzug hält - die Theorie und viele Praxisprojekte stehen seit Jahren.

  3. von THO 14.06.2011 (23:02Uhr) 3.

    Es geht im ersten Schritt ja gar nicht darum, dass man den Content bis ins kleinste Detail auszeichnen muss (was auch gar nicht umsetzbar wäre), sondern dass bestehende Strukturen so ausgezeichnet werden können, dass entsprechende Tools die Informationen auswerten können.

    Wenn beispielsweise Wordpress die Auszeichnungen für Titel, Autor, Datum etc. für einen Computer verwertbar auszeichnen würde, dann könnte man gezielt nach solchen Kriterien suchen, sortieren oder sogar Zusammenhänge herstellen. Dabei müsste sich der normale Anwender noch gar nicht einmal mit semantischem Markup beschäftigen.

    Kommerziell ist GoodRelations bisher ein gutes Beispiel gewesen - damit können Produkte und Geschäfte so ausgezeichnet werden, dass man automatisiert nach Kriterien wie Preis, Standort, Verfügbarkeit, etc. filtern könnte. In gleichem Maße könnten auch Bewertungen, Tests oder Erfahrungsberichte damit kombiniert werden. (und in einem Shop-System wäre es auch nicht allzu schwer die Templates entsprechend für eine grundlegende Funktionalität zu ändern).

    Sofern genügend Informationen vorhanden sind, könnte man sich dann eine Suchmaschine vorstellen, bei der man nach einem Produkt sucht und dazu dann Detailinformationen, Preise oder den nächsten Händler findet, der das Produkt verkauft.

    Um noch zu dem Artikel bezug zu nehmen: Die bisherigen Ontologien sind natürlich deutlich mächtiger, als das was schema.org vorstellt. Deswegen ist auch der Aufschrei in der Semantic Web Welt groß, weil viele Visionen entsprechendes Vokabular benötigen.
    Meiner Meinung nach sollte es aber dennoch möglich sein, die Schemata auf entsprechende Ontologien zu mappen und dann als zusätzliche Informationsquellen nutzen. Vielleicht kann man so eher die breite Masse erreichen als mit komplexen OWL/RDF-Daten, mit denen sich nur wenige tief genug auseinandersetzen wollen oder können.

    Natürlich geht damit auch die Einheitlichkeit der gewünschten Lösungen verloren, was aber vielleicht auch dazu führt, dass die Technologie mehr aus der Forschung in die Realität gezogen wird und auch forschugnstechnisch "unfertige" Lösungen sinnvoll genutzt werden können.
    Das wird unter anderem auch durch einen Artikel hier deutlich - wo soll so etwas denn sonst bekannter werden?

    Im Übrigen ist die Semantic Web und auch Linked Data Szene momentan in stetigem Wachstum. Wer Interesse daran hat, der kann mal unter http://richard.cyganiak.de/2007/10/lod/ einen Blick auf die Linked Open Data Cloud werden - da ist auch die BBC dabei, die in der Tat eines der berühmten Beispiele darstellt.

  4. von Tanja Handl 15.06.2011 (09:35Uhr) 4.

    Die Entwicklung gefällt mir sehr gut. Auszeichnungsarbeit ist natürlich zu Beginn aufwändig, allerdings ist das auch nur eine Frage der Übung bzw. der Ergänzung bestehender Systeme (wie z.B. THO mit dem Beispiel Wordpress ja ganz gut beschrieben hat).

  5. von Semantische Suchmaschinenoptimierung 05.03.2012 (11:30Uhr) 5.

    [...] [...]

Deine Meinung


(wird nicht veröffentlicht)