Gegenwart und Zukunft bei der Nutzung semantischer Anwendungen: Vom Web 2.0 zum Semantic Web
Das Web 2.0 und die damit verbundene Informationsflut haben das Semantic Web noch unverzichtbarer gemacht, so die Grundhypothese dieses Artikels. Zahlreiche Web-2.0-Dienste haben neben der Erstellung von Inhalten zwar auch die Aufgabe übernommen, Inhalte im Web zielsicherer zu verteilen, dennoch scheint das Angebot an Webinhalten sowie an unternehmensinternen Informationen täglich zuzunehmen. Somit steigt auch der damit verbundene Aufwand, Information professionell zu managen. Neben gängigen Suchmaschinen haben sich zwar Portale wie netvibes.com oder liferay.com, RSS-Feeds, Mashup-Generatoren wie zembly.com oder Social-Tagging-Netzwerke wie delicious.com oder bibsonomy.org als weitere Informationskanäle und -filter etabliert, dennoch sind wir nach wie vor daran gewöhnt, dass wir Information aus dem Internet oder Intranet aktiv holen müssen (Stichwort: „googeln“).
Nicht so in Zukunft. Recommender-Systeme sollen helfen, User mit personalisierter und dementsprechend relevanter Information zu versorgen – die Information kommt dann zu uns.
Jeder Internet-User weiß intelligente Dienste wie Amazons Vorschlagsfunktion („Leute, die X gekauft haben, kauften auch Y“) grundsätzlich zu schätzen. Wenn aber die Holzeisenbahn, die man vorletztes Weihnachten dem Neffen gekauft hat, noch Jahre später zu unerwünschten Empfehlungen führt, sehnt man sich wieder nach dem „Ur-Web“, das völlig ohne Personalisierung und Vorschläge funktioniert hat.
Zentrale Bausteine eines Web 3.0 sind bereits realisiert, das erläutern Dr. Sören Auer, Sebastian Dietzold und Michael Martin in ihrem Beitrag „Semantische Webapplikationen entwickeln“ ab Seite 30. Doch welche Rolle spielen sie bei der Entwicklung neuer, intelligenterer Webanwendungen? Was unterscheidet diese von Web-2.0-Anwendungen? Werden Recommender-Systeme nun endlich intelligent?
Was sind semantische Webanwendungen?
Streng genommen beschreiben jene W3C-Spezifikationen, die die Grundlagen für das Semantic Web bilden [1], lediglich das Backend, nicht aber die Anwendersicht auf das semantische Web. Dennoch gibt es gewissermaßen einen Grundkonsens darüber, was von „semantischen“ Webanwendungen erwartet werden kann:
- Die Anwendung soll seine Anwender in gewissem Maß „verstehen“. Sie soll zum Beispiel den Hintergrund einer Suchanfrage richtig interpretieren. Bei mehrdeutigen Suchanfragen wie „Jaguar“ soll sie entweder nachfragen oder aufgrund anderer User-Eingaben oder Kontext-Informationen die Interpretation automatisch vornehmen.
- Die Anwendung soll eine integrierte, vernetzte Sicht auf verschiedene Datenquellen ermöglichen. Daten, die aus Sicht der Anwendungslogik eigentlich zusammengefasst sein sollten, müssen häufig erst manuell verbunden werden. Ein oft zitiertes Beispiel dafür ist die Planung einer Reise via Internetquellen: Hotelreservierung, Suche nach dem passenden Mietauto, An- und Abflug sollten mit einer einzigen Planungsanwendung abgewickelt werden und nicht wie üblich auf drei unterschiedlichen Plattformen.
- Die Anwendung soll ihren Inhalten und ihrem Zweck entsprechend eine intuitiv bedienbare Benutzeroberfläche bereitstellen. So sollen beispielsweise Ereignisse auf einer Zeitleiste aufgezeigt und Points-of-Interest auf einer Landkarte oder Tags als Tagcloud dargestellt werden und nicht wie bislang üblich als Liste von Begriffen oder Dokumenten.
- Die Anwendung soll „dazulernen“. Je häufiger die User mit der Anwendung in Interaktion treten, desto zielsicherer sollen Präferenzmuster der Community oder einzelner User erkannt werden. Ein einfaches Beispiel: Tags, die von delicious.com vorgeschlagen werden, basieren auf anderen User-Tag-Events – das System lernt laufend dazu.
Bevor auf die Vorteile, die das Semantic Web in diesem Zusammenhang bietet, explizit eingegangen wird, soll nun anhand von Beispielen gezeigt werden, dass zahlreiche Web-2.0-Anwendungen bereits einfache, aber dennoch brauchbare Lösungen hervorgebracht haben und damit auch schon das Feld für einen Übergang zum semantischen Web bereiten.
Auto-Complete: Mit einer Auto-Complete-Funktionalität erleichtert zum Beispiel Google auf seiner englischsprachigen Startseite das Leben des Suchenden [2], die Funktion soll demnächst auch auf den deutschsprachigen Google-Seiten verfügbar sein. Funktionsweise: Während man einen Suchbegriff eintippt, werden mögliche Suchwortkombinationen und die Trefferzahlen angezeigt. Auch Wikipedia bietet einen derartigen Suchhelfer an und reduziert damit die Wahrscheinlichkeit, dass der User von null Suchtreffern enttäuscht wird.
Mashups: APIs und Mashups sind aus Netzwerk-ökonomischer Sicht neben Social Networks die Innovationen im Web 2.0. Sie erleichtern das Leben der Internet-User durch die Verknüpfung verteilter Datenquellen. Services wie dapper [3] können bei der Erstellung eigener Mashups wertvolle Dienste leisten und setzen dabei zunehmend auch auf Semantic-Web-Spezifikationen wie RDFa.
Facettierte Suche: Welche Vorteile die facettierte Suche gegenüber einfacher Volltextsuche bietet, demonstriert die Suchmaschine exalead.com: Sucht man damit in Wikipedia nach „Solaris“, so kann man schnell dank der angebotenen Suchfacetten zwischen dem Science-Fiction-Film, dem Betriebssystem oder dem Omnibushersteller wählen. Derartige Suchwerkzeuge lassen sich dank der hinterlegten Metadaten beziehungsweise Informationskategorien generieren, die wiederum entweder wie bei Wikipedia manuell oder wie mit OpenCalais [4] automatisch erstellt werden. Ein Framework dazu bietet das MIT mit Exhibit [5] an: Die frei verfügbare, in JavaScript implementierte Software erlaubt die unkomplizierte Erstellung von facettierten Suchmaschinen. Die Software unterstützt Datenformate wie RDF, Excel oder Google Spreadsheets und zusätzlich zur gewohnten Auflistung von Suchresultaten unterschiedliche Darstellungsformen wie Zeitleisten oder Kartendarstellung.
Lernende Anwendungen: Jede User-Interaktion kann das System intelligenter machen. Das Photo-Tagging-System „alipr.com“ beispielsweise lernt von seinen Usern, welche Inhalte auf Fotos zu finden sind und unterbreitet automatisch selbst erstaunlich gute Vorschläge für passende Tags.
Ist das Web 2.0 also bereits ein „semantisches Web“? Oder anders gefragt: Wozu brauchen wir überhaupt noch das Semantic Web? Oder handelt es sich insgesamt um ein einziges, untrennbares Ökosystem, das sich erst in Verbindung mit anderen Technologien wie Machine Learning [6] voll entfalten kann?
Unterschiede zu Web-2.0-Anwendungen
Web-2.0-Anwendungen basieren auf dem Prinzip „Datensilo“, wobei diese teilweise via API geöffnet werden können und der Plattform-Betreiber bestimmen kann, welche Sichten auf die zugrunde liegende Datenbank publik gemacht werden. Demgegenüber setzt eines der wichtigsten Semantic-Web-Projekte, nämlich „Linking Open Data (LOD)“, auf die Linked-Data-Prinzipien Öffnung, Verlinkung („Dereferenzierung“) von Daten und Interoperabilität [7].
Der Datenbestand, die so genannte „LOD-Cloud“, ist in den letzten Monaten stark angewachsen. Jeder Content-Provider kann sich mit relativ wenig Aufwand in die LOD-Cloud einhängen: Mit Hilfe von Triplify [8] können die bereits in relationalen Datenbanken vorliegenden Daten in Form von RDF und Linked Data publiziert werden.
Der Unterschied zwischen Semantic-Web-Anwendungen und Web-2.0-Anwendungen liegt also kaum an der Oberfläche. Ob Exhibit 2.0 nun „schon“ Semantic Web ist oder „noch“ Web 2.0, darüber könnte man wohl länger streiten. Entscheidend ist, auf welche Datenbestände beziehungsweise -formate zurückgegriffen wird und welche Daten in welcher Form man selbst publiziert.
Drei Semantic-Web-Anwendungen
Bekannte Social-Tagging-Portale wie delicious.com zeichnen sich durch ein einfaches System aus, Websites mit persönlichen Labels via Browser zu annotieren, um damit Weblinks ohne zusätzliche Software verwalten zu können. Über soziale Netzwerke können Empfehlungen ausgetauscht werden, interessante User können via RSS-Feeds laufend „beobachtet“ werden. Ein aussagekräftiger Empfehlungsdienst à la similicio.us oder inSuggest [9] ließe sich zwar prinzipiell damit entwickeln, würde aber darunter leiden, dass delicious.com im Gegensatz zu Faviki [10] einfache Text-Strings verwendet, um Webressourcen zu taggen. Das heißt mit anderen Worten, dass User bei Faviki beispielsweise nicht einfach „Solaris“ als Tag verwenden, sondern davor klarstellen können, dass sie gerade den Film damit meinen. Dieses Prinzip des „Concept Taggings“ (im Gegensatz zum „Free Tagging“) wird auch im Enterprise-Umfeld umso wichtiger, je genauer darauf basierende Dienste wie die „Ähnlichkeitssuche“ oder „Recommender-Systeme“ sein sollen.
Ein anderes Beispiel ist die BBC. Sie gehört zu den ersten Anwendern von Linked-Data-Prinzipien und bietet unter anderem den BBC Program Explorer [11] als Semantic-Web-Anwendung an. Dadurch kommt der User in den Genuss, weiterführende Informationen und Empfehlungen zu jeder Sendung angezeigt zu bekommen. Die Anwendungsdaten lassen sich grundsätzlich mit weiteren RDF-Daten, beispielsweise aus freebase oder DBpedia, leicht verknüpfen.
Beispiel drei ist Twine [12]. Kaum ein anderer Applikations-Launch wurde so lange in den Medien und der Blogosphäre inszeniert wie der von Twine. Nova Spivack, der Gründer der Plattform (und übrigens der Enkel des Management-Gurus Peter F. Drucker), hat schließlich im Oktober 2008 die „erste Mainstream-Semantic-Web-Anwendung“ für die Öffentlichkeit freigegeben. User können im Portal „Items“ (also Web-Ressourcen) in so genannten „Twines“ gruppieren und mit verschiedenen Facetten wie Tags, Personennamen, Ortsnamen und Organisationen beschreiben und verknüpfen. Für jedes Item wird somit ein semantischer Graph erstellt, der auch im RDF-Format zugänglich ist (allerdings noch nicht verknüpft mit anderen RDF-Daten aus der LOD-Cloud). Auf Basis dessen kann der User laufend mit Empfehlungen versorgt werden. So werden zum Nutzerprofil passende „Twines“ oder User sowie facettierte Links zum „Querlesen“ vorgeschlagen. War die Qualität des Empfehlungsdienstes dieser „Delicious 3.0“-Plattform anfangs noch irritierend, so hat sich das Tool nun als hervorragende Quelle der Inspiration etablieren können.
Fazit
Aus Anwendersicht kann ein „semantisches Web“ auch dann bereits Nutzen stiften, wenn noch nicht die technischen Spezifikationen des W3C zum Einsatz kommen. So können mit facettierter Suche, Recommender-Systemen oder Angeboten zum Querlesen Inhalte vom User besser erschlossen werden. Das Semantic Web entfaltet sich jedoch im Sinne einer höheren Skalierbarkeit erst dann, wenn zugrunde liegende Datenmodelle auf RDF basieren, gängige Metadaten-Schemata wie Dublin Core oder FOAF (Friend-of-a-Friend) und die Linked-Data-Prinzipien zum Einsatz kommen. Einzelne Anwendungen können dann in diesem „Ökosystem“, das in vielerlei Hinsicht mit dem Web 2.0 verwoben ist, das Web als globale Datenbank abfragen und der Begriff „Mashup“ bekommt somit eine neue Dimension.