Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

t3n 22

Semantic-Web-Technologien in Content Management Systemen nutzen: Systeme mit Zukunft

Der Großteil der Webseiten, die heute von CMS ausgeliefert werden, bilden kleine Dateninseln. Man surft hin, schaut sich um und geht zur nächsten Insel. Zuletzt setzte aber eine Art Kontinentaldrift ein: Die Inseln wachsen zusammen. Dieser Artikel bietet einen Überblick über die verschiedenen Ansätze für die Integration von Semantic-Web-Technologien in Content Management Systeme.

Die Zeiten, in denen das Semantic Web als alltagsferne Spinnerei aus dem Elfenbeinturm angesehen wurde, sind vorbei. Spätestens seit Google, Yahoo und Facebook auf den Zug aufgesprungen sind und semantisch angereicherte Daten entweder verarbeiten oder selbst anbieten, ist das Semantic Web in der Mitte des World Wide Web angekommen [1].

Content Management Systeme spielen bei der Verbreitung des Semantic Web eine zentrale Rolle. Über sie wird ein Großteil der Inhalte verwaltet und zu Webseiten aufbereitet. Sie liefern die fertigen Seiten aus, die, einmal um semantische Informationen angereichert, ein neues Gefühl des Surfens im Internet ermöglichen. Derzeit ist zu beobachten, wie sich die Communitys der wichtigsten CMS verstärkt um die Integration des Semantic Web kümmern.

Unter dem Begriff „Semantic Web“ wird im Allgemeinen eine Sammlung aufeinander aufbauender Standards und Technologien verstanden. Man kann also nicht „das“ Semantic Web in ein CMS implementieren, sondern nur bestimmte Technologien und Ausschnitte aus den Anwendungsfeldern, die nun in den CMS aufgegriffen werden. Allen Technologien gemein ist jedoch die Idee, die Tim Berners-Lee einmal so formuliert hat [2] : „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“.

Anwendungsfälle

Eine direkte und erste Anwendung für CMS-Betreiber ergibt sich aus der Tatsache, dass viele Suchmaschinen – darunter Google und Yahoo – mittlerweile Metadaten auswerten, die in den Seiten eingebettet wurden (etwa über RDFa oder Microformats). Aus diesen Metadaten generieren die Suchmaschinen besser aufbereitete Darstellungen der Treffer (siehe Abbildung).

In Google werden zusätzliche Informationen aus Metadaten unterhalb des Treffers angezeigt. In diesem Fall Konzertinfos und Links zu virtuellen Ticketschaltern.
In Google werden zusätzliche Informationen aus Metadaten unterhalb des Treffers angezeigt. In diesem Fall Konzertinfos und Links zu virtuellen Ticketschaltern.
Sind die vom CMS verwalteten Inhalte semantisch angereichert, bieten sich völlig neue Möglichkeiten der Navigation und des Suchens. Neben dem klassischen Seitenbaum, der die Webseite hierarchisch strukturiert, treten in Zukunft automatisch erzeugte Kategoriebäume, Kartendarstellungen oder Kalenderansichten. Die diversen Filter lassen sich dabei beliebig kombinieren und hintereinander anwenden (Faceted Browsing).
Der Semantik-Service Open Calais extrahiert aus herkömmlichen Webseiten Namen, Fakten und Termine.
Der Semantik-Service Open Calais extrahiert aus herkömmlichen Webseiten Namen, Fakten und Termine.
Die Suche nach bestimmten Inhalten wird durch die semantische Anreicherung der Inhalte erheblich vereinfacht. So wird man in Zukunft verstärkt nach Konzepten anstatt nach Begriffen suchen können („Semantic Search“). Eine Suche nach dem Konzept „Golf“ im Sinne des Autos liefert dann keine Treffer mehr zum „Golf von Mexiko“ oder dem „Golfsport“. Zudem kann man mehrstufige Suchen einrichten, die zum ursprünglichen Suchgegenstand in Beziehung stehende Konzepte anbieten: Es werden dann im genannten Beispiel zusätzlich Links zu anderen Automodellen oder Herstellern im gleichen Segment angeboten. Denkbar ist auch ein automatisch zusammengestelltes Glossar zu technischen Begriffen rund ums Auto.

Ein weiteres Anwendungsfeld des Semantic Web ist die Anreicherung der eigenen Inhalte um externe Quellen. Auf einer Seite zu einem Mitarbeiter könnten zum Beispiel aus mehreren externen Quellen alle seine Veröffentlichungen in Zeitschriften gesammelt und als Liste ausgegeben werden (Content Aggregation). Im Unterschied zu den bisherigen Methoden, in denen spezialisierte Web Services kontaktiert werden müssen, lassen sich systeminterne und -externe Daten im Semantic Web mit Hilfe der Sprache SPARQL einheitlich und in einer einzigen Abfrage aggregieren. Eine solche Content Aggregation kann auch unterstützend im Backend stattfinden: Einem Redakteur werden während der Textbearbeitung zusätzliche Informationen angeboten, die er in seinen Text einfließen lassen kann. Schreibt er etwa einen Artikel zu Smartphones, werden ihm alle Personen angezeigt, die in letzter Zeit zu diesem Thema veröffentlicht haben – innerhalb und außerhalb des eigenen CMS.

Ein CMS kann über SPARQL die Inhalte nicht nur als Webseite, sondern auch direkt für semantische Abfragen zur Verfügung stellen (SPARQL-Endpoint). Damit kann ein Internetauftritt zu einem Knoten im rasant wachsenden Linked-Data-Netz werden [3].

Drupal

Drupal ist eines der am häufigsten eingesetzten CMS mit Schwerpunkt auf Social Community Websites. Sehr früh hat der Gründer Dries Buytaerd dem Semantic Web eine strategische Bedeutung für Drupal zugemessen. Mit Drupal 7 (erscheint voraussichtlich im Dezember 2010) wird ein Modul mitgeliefert, das Funktionen für den Umgang mit RDF-Tripeln bereitstellt [4].

Die Hauptanwendung des Moduls besteht in der heutigen Form darin, die Frontend-Ausgabe automatisch mit RDFa anzureichern. Falls dann auf einer Webseite der Titel ausgegeben wird, kann dieser automatisch ausgezeichnet und damit für Maschinen „lesbar“ gemacht werden: <h2 property=„dc:title“> Foo </h2>.

Aloha bindet sich als Layer auf der Seite ein und erlaubt das direkte Editieren „vor Ort“.
Aloha bindet sich als Layer auf der Seite ein und erlaubt das direkte Editieren „vor Ort“.
In Planung ist außerdem, dass eine Drupal-Instanz nicht nur andere SPARQL-Endpoints abfragen, sondern auch selbst als SPARQL-Endpoint dienen kann. Außerdem sollen die verwendeten Content-Modelle mit bestehenden Ontologien verknüpft werden können.

Abgesehen vom Drupal-Core wird derzeit von Lin Clarke im Rahmen von Googles Summer of Code 2010 ein Modul namens „SPARQL Views“ umgesetzt. Es bietet im Wesentlichen eine bequeme Methode, um Daten von externen SPARQL-Endpunkten zu aggregieren und in eine Listenansicht umzuwandeln. Das Modul greift auf die Core-Funktionalitäten zurück und befindet sich derzeit im Alpha-Stadium [5].

Bitte beachte unsere Community-Richtlinien

3 Reaktionen
THO

Semantic MediaWiki wäre auch zu erwähnen, für alle, die gerne die bekannte Wikipedia-Plattform benutzen. Allerdings funktioniert die Auszeichnung der Inhalte hier nicht automatisch.

Nicolas

Drupal 7 ("erscheint voraussichtlich im Dezember 2010").

Sebastian Kurfürst

Hallo,

es wäre noch zu erwähnen, dass ich gerade im Rahmen meiner Diplomarbeit eine Framework schreibe, welches FLOW3 mit dem semantischen Web verbindet. Dieses Framework wird u.a. auf der T3CON vorgestellt: http://t3con11-frankfurt.typo3.org/sessions/acceptedpapers/paper/flow3_goes_semantic.html

Dieses Framework kann auch eine Grundlage für Semantic Web Integration in TYPO3 Phoenix sein.

Viele Grüße,
Sebastian

Du musst angemeldet sein, um einen Kommentar schreiben zu können.

Jetzt anmelden

Finde einen Job, den du liebst