Semantic-Web-Technologien in Content Management Systemen nutzen: Systeme mit Zukunft

Software & Entwicklung

Semantic-Web-Technologien in Content Management Systemen nutzen: Systeme mit Zukunft

Der Großteil der Webseiten, die heute von CMS ausgeliefert werden, bilden kleine Dateninseln. Man surft hin, schaut sich um und geht zur nächsten Insel. Zuletzt setzte aber eine Art Kontinentaldrift ein: Die Inseln wachsen zusammen. Dieser Artikel bietet einen Überblick über die verschiedenen Ansätze für die Integration von Semantic-Web-Technologien in Content Management Systeme.

26.09.2011, 10:01 Uhr • 7 Min.

Inhaltsverzeichnis

Anwendungsfälle
Drupal
TYPO3
Joomla
WordPress
OntoWiki
Ausblick

Die Zeiten, in denen das Semantic Web als alltagsferne Spinnerei aus dem Elfenbeinturm angesehen wurde, sind vorbei. Spätestens seit Google, Yahoo und Facebook auf den Zug aufgesprungen sind und semantisch angereicherte Daten entweder verarbeiten oder selbst anbieten, ist das Semantic Web in der Mitte des World Wide Web angekommen [1].

Content Management Systeme spielen bei der Verbreitung des Semantic Web eine zentrale Rolle. Über sie wird ein Großteil der Inhalte verwaltet und zu Webseiten aufbereitet. Sie liefern die fertigen Seiten aus, die, einmal um semantische Informationen angereichert, ein neues Gefühl des Surfens im Internet ermöglichen. Derzeit ist zu beobachten, wie sich die Communitys der wichtigsten CMS verstärkt um die Integration des Semantic Web kümmern.

Unter dem Begriff „Semantic Web“ wird im Allgemeinen eine Sammlung aufeinander aufbauender Standards und Technologien verstanden. Man kann also nicht „das“ Semantic Web in ein CMS implementieren, sondern nur bestimmte Technologien und Ausschnitte aus den Anwendungsfeldern, die nun in den CMS aufgegriffen werden. Allen Technologien gemein ist jedoch die Idee, die Tim Berners-Lee einmal so formuliert hat [2] : „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“.

Anwendungsfälle

Eine direkte und erste Anwendung für CMS-Betreiber ergibt sich aus der Tatsache, dass viele Suchmaschinen – darunter Google und Yahoo – mittlerweile Metadaten auswerten, die in den Seiten eingebettet wurden (etwa über RDFa oder Microformats). Aus diesen Metadaten generieren die Suchmaschinen besser aufbereitete Darstellungen der Treffer (siehe Abbildung).

In Google werden zusätzliche Informationen aus Metadaten unterhalb des Treffers angezeigt. In diesem Fall Konzertinfos und Links zu virtuellen Ticketschaltern.

Sind die vom CMS verwalteten Inhalte semantisch angereichert, bieten sich völlig neue Möglichkeiten der Navigation und des Suchens. Neben dem klassischen Seitenbaum, der die Webseite hierarchisch strukturiert, treten in Zukunft automatisch erzeugte Kategoriebäume, Kartendarstellungen oder Kalenderansichten. Die diversen Filter lassen sich dabei beliebig kombinieren und hintereinander anwenden (Faceted Browsing).

Der Semantik-Service Open Calais extrahiert aus herkömmlichen Webseiten Namen, Fakten und Termine.

Die Suche nach bestimmten Inhalten wird durch die semantische Anreicherung der Inhalte erheblich vereinfacht. So wird man in Zukunft verstärkt nach Konzepten anstatt nach Begriffen suchen können („Semantic Search“). Eine Suche nach dem Konzept „Golf“ im Sinne des Autos liefert dann keine Treffer mehr zum „Golf von Mexiko“ oder dem „Golfsport“. Zudem kann man mehrstufige Suchen einrichten, die zum ursprünglichen Suchgegenstand in Beziehung stehende Konzepte anbieten: Es werden dann im genannten Beispiel zusätzlich Links zu anderen Automodellen oder Herstellern im gleichen Segment angeboten. Denkbar ist auch ein automatisch zusammengestelltes Glossar zu technischen Begriffen rund ums Auto.

Ein weiteres Anwendungsfeld des Semantic Web ist die Anreicherung der eigenen Inhalte um externe Quellen. Auf einer Seite zu einem Mitarbeiter könnten zum Beispiel aus mehreren externen Quellen alle seine Veröffentlichungen in Zeitschriften gesammelt und als Liste ausgegeben werden (Content Aggregation). Im Unterschied zu den bisherigen Methoden, in denen spezialisierte Web Services kontaktiert werden müssen, lassen sich systeminterne und -externe Daten im Semantic Web mit Hilfe der Sprache SPARQL einheitlich und in einer einzigen Abfrage aggregieren. Eine solche Content Aggregation kann auch unterstützend im Backend stattfinden: Einem Redakteur werden während der Textbearbeitung zusätzliche Informationen angeboten, die er in seinen Text einfließen lassen kann. Schreibt er etwa einen Artikel zu Smartphones, werden ihm alle Personen angezeigt, die in letzter Zeit zu diesem Thema veröffentlicht haben – innerhalb und außerhalb des eigenen CMS.

Ein CMS kann über SPARQL die Inhalte nicht nur als Webseite, sondern auch direkt für semantische Abfragen zur Verfügung stellen (SPARQL-Endpoint). Damit kann ein Internetauftritt zu einem Knoten im rasant wachsenden Linked-Data-Netz werden [3].

Drupal

Drupal ist eines der am häufigsten eingesetzten CMS mit Schwerpunkt auf Social Community Websites. Sehr früh hat der Gründer Dries Buytaerd dem Semantic Web eine strategische Bedeutung für Drupal zugemessen. Mit Drupal 7 (erscheint voraussichtlich im Dezember 2010) wird ein Modul mitgeliefert, das Funktionen für den Umgang mit RDF-Tripeln bereitstellt [4].

Die Hauptanwendung des Moduls besteht in der heutigen Form darin, die Frontend-Ausgabe automatisch mit RDFa anzureichern. Falls dann auf einer Webseite der Titel ausgegeben wird, kann dieser automatisch ausgezeichnet und damit für Maschinen „lesbar“ gemacht werden: <h2 property=„dc:title“> Foo </h2>.

Aloha bindet sich als Layer auf der Seite ein und erlaubt das direkte Editieren „vor Ort“.

In Planung ist außerdem, dass eine Drupal-Instanz nicht nur andere SPARQL-Endpoints abfragen, sondern auch selbst als SPARQL-Endpoint dienen kann. Außerdem sollen die verwendeten Content-Modelle mit bestehenden Ontologien verknüpft werden können.

Abgesehen vom Drupal-Core wird derzeit von Lin Clarke im Rahmen von Googles Summer of Code 2010 ein Modul namens „SPARQL Views“ umgesetzt. Es bietet im Wesentlichen eine bequeme Methode, um Daten von externen SPARQL-Endpunkten zu aggregieren und in eine Listenansicht umzuwandeln. Das Modul greift auf die Core-Funktionalitäten zurück und befindet sich derzeit im Alpha-Stadium [5].

Sowohl im RDF-Modul als auch im Modul „SPARQL Views“ wird auf das Framework ARC2 zurückgegriffen, das die Basisfunktionalitäten, etwa das Parsen der SPARQL-Queries oder das Serialisieren in verschiedene Formate, zur Verfügung stellt [3].

TYPO3

TYPO3 ist in Europa das am häufigsten eingesetzte Content Management System. Derzeit ist der Versionszweig 4.x im aktiven Einsatz, während die Version 5 von Grund auf neu entwickelt wird. Seit Anfang 2010 existiert außerdem ein Projekt mit dem Ziel, die Integration von Aspekten des Semantic Web voranzutreiben [6]. Erste Ergebnisse werden in die kommende Version 4.6 (erscheint voraussichtlich im Januar 2011) einfließen. Das betrifft zunächst die technologische Grundlage, um auf gespeicherte Tripel performant zugreifen zu können. Dazu wird die bestehende Datenbank-API leicht erweitert.

In der nächsten Version von TYPO3 4.x wird es möglich sein, Inhalte einer Webseite automatisch mit RDFa auszeichnen zu lassen. Ein dafür benötigtes Mapping definiert man in TypoScript, der Konfigurationssprache von TYPO3. Mit Version 5 hält eine objektorientierte Struktur Einzug in den TYPO3-Kern, der es außerdem ermöglicht, die Semantik von einem Objekt, etwa einer „Person“ auf ein Objekt „Angestellter“ zu vererben. Das vereinfacht die semantische Auszeichnung des Inhalts aus Sicht von Entwicklern und Administratoren.

In der TYPO3-Version 5 wird der Rich-Text-Editor „Aloha“ zum Einsatz kommen [7]. Dieser ermöglicht es, Begriffe in einem Text semantisch auszuzeichnen, ohne den Arbeitsfluss eines Redakteurs zu stören.

Um den Integrationsprozess zu beschleunigen, wird TYPO3 ebenfalls auf ein Semantic-Web-Framework zurückgreifen. Eine endgültige Entscheidung steht hier aber noch aus. Neben dem in Drupal verwendeten ARC2 kommt „Erfurt“ infrage, das auch die Basis von OntoWiki bildet. Eine saubere Definition der Schnittstellen soll aber auch in Zukunft eine Austauschbarkeit der Lösungen gewährleisten.

Joomla

Das ebenfalls weit verbreitete Joomla eignet sich besonders für Auftritte mittlerer Komplexität. Semantic-Web-Vorreiter finden sich hier vor allem in den Erweiterungen. Für die auf Joomla basierende E-Commerce-Lösung „VirtueMart“ steht eine Erweiterung zur Verfügung, die den Produktkatalog mit RDFa auszeichnet und ihn als RDF/XML serialisiert ausgeben kann [8]. Der Inhalt einer mit Joomla generierten Seite kann außerdem mit Hilfe anderer Erweiterungen mit Microformats angereichert werden [9].

WordPress

WordPress ist der mit Abstand bekannteste Vertreter von Blog-Software. Doch auch wenn sich WordPress auf Blogs spezialisiert hat, so lässt es sich auch als Content Management System einsetzen. Die Datenstruktur von WordPress unterstützt die semantische Nutzung von Begriffen. So werden Terms (Kategorien und Tags) zusammen gespeichert und können flexibel genutzt werden. Das Begriffssystem von WordPress ermöglicht Hierarchien, jedoch keine Netze. Bei der Ausgabe semantischer Informationen unterstützt WordPress FOAF (Friend-Of-A-Friend) bereits seit 2005. Weiterhin kann man das Blogsystem über den Service „Open Calais“ zum automatischen Tagging von Posts überreden [10]. Es gibt außerdem Bestrebungen in der Community, RDFa besser nutzbar zu machen. Vorläufiges Ergebnis ist ein Plugin, das FOAF und Dublin-Core-Metadaten ausgibt [11].

OntoWiki

OntoWiki ist eine auf das Semantic Web spezialisierte Wiki-Software, die an der Universität Leipzig entwickelt wird. Sie baut auf das ebenfalls dort entwickelte Semantic-Web-Framework „Erfurt“ auf [12]. Die Inhalte werden in Form von Tripeln und Graphen gespeichert und automatisch zu verschiedenen Ansichten aggregiert; etwa als Kalender, Liste oder Karte. Damit ist OntoWiki ein Vorreiter in Sachen Faceted Browsing.

Die hier vorgestellten Systeme sind allerdings nur ein Ausschnitt aus der weiten Landschaft der CMS. Unter dem Schirm des EU-Projekts „IKS – Interactive Knowledge Stack“ arbeiten unter anderem Plone und Alfresco daran, Semantic-Web-Technologien zu integrieren [13]. Darüber hinaus gibt es Bestrebungen, OntoWiki und TYPO3 miteinander zu verknüpfen.

Ausblick

Nach langen Jahren der Dürre, in denen das Semantic Web als praxisfern galt, entwickelt sich nun eine gewisse Dynamik. Der große Umbruch wird aber wohl ausbleiben. Vielmehr werden die Technologien schrittweise eingeführt werden, Kristallisationspunkte sind meist kleinere Teams, die das notwendige Wissen um die Technologien des Semantic Web in die Communitys tragen. Drupal mausert sich mit der neuen Version zu einem sCMS (semantischen Content Management System) mit RDFa-Support; TYPO3 ist nicht nur auf dem besten Weg, die neue Version ebenfalls mit semantischer Funktionalität auszustatten, sondern arbeitet auch mit Hochdruck daran, die semantische Unterstützung in die bestehende Version zu integrieren. Auch die Community um Joomla arbeitet an Erweiterungen zum Semantic Web. WordPress, häufig als einfaches CMS für Auftritte mit niedriger Komplexität eingesetzt, bietet bereits heute elementare semantische Unterstützung.

Durch die „Linked Open Data“-Bewegung ist die kritische Menge an nutzbaren semantischen Daten erreicht [14], sodass sich durch die neuen Technologien ein echter Mehrwert generieren lässt. Der Kontinentaldrift hat also bereits eingesetzt und geht langsam, aber stetig voran.

Der Autor

Jochen Rau lebt und arbeitet in Hatfield (USA) als selbstständiger TYPO3-Entwickler. Bevor er zur TYPO3-Community stieß, arbeitete er mehrere Jahre in der Forschung als Projektleiter bei der Fraunhofer-Gesellschaft und dem Deutschen Zentrum für Luft- und Raumfahrt e.V. sowie als Oberstufenlehrer für Mathematik, Physik und Computertechnik an einer Waldorfschule.

Die Autorin

Lina Wolf ist Diplom-Informatikerin, seit 2006 im TYPO3-Projekt aktiv und seit 2009 Certified TYPO3 Integrator. Sie arbeitet als wissenschaftliche Mitarbeiterin im Bereich Semantic Web am Hasso-Plattner Institut in Potsdam.

Mehr zu diesem Thema

Verpasse keine News zu Software & Entwicklung 💌

Hinweis zum Newsletter & Datenschutz

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

erschienen in

t3n 22

Jetzt kaufen

Stellenangebote via t3n

Jetzt Job finden

Kommentare (3)

Kommentieren

Kommentare einblenden

Sebastian Kurfürst

26.09.2011, 10:24 Uhr

Hallo,

es wäre noch zu erwähnen, dass ich gerade im Rahmen meiner Diplomarbeit eine Framework schreibe, welches FLOW3 mit dem semantischen Web verbindet. Dieses Framework wird u.a. auf der T3CON vorgestellt: http://t3con11-frankfurt.typo3.org/sessions/acceptedpapers/paper/flow3_goes_semantic.html

Dieses Framework kann auch eine Grundlage für Semantic Web Integration in TYPO3 Phoenix sein.

Viele Grüße,
Sebastian

Nicolas

01.12.2011, 23:46 Uhr

Drupal 7 („erscheint voraussichtlich im Dezember 2010“).

THO

21.02.2012, 22:41 Uhr

Semantic MediaWiki wäre auch zu erwähnen, für alle, die gerne die bekannte Wikipedia-Plattform benutzen. Allerdings funktioniert die Auszeichnung der Inhalte hier nicht automatisch.

Brands

Themen

Magazine

Skills

Semantic-Web-Technologien in Content Management Systemen nutzen: Systeme mit Zukunft

Anwendungsfälle

Drupal

TYPO3

Joomla

WordPress

OntoWiki

Ausblick