Anzeige
Anzeige
Software & Entwicklung
Artikel merken

Semantic-Web-Technologien in Content Management Systemen nutzen: Systeme mit Zukunft

Der Großteil der Webseiten, die heute von CMS ausgeliefert werden, bilden kleine Dateninseln. Man surft hin, schaut sich um und geht zur nächsten Insel. Zuletzt setzte aber eine Art Kontinentaldrift ein: Die Inseln wachsen zusammen. Dieser Artikel bietet einen Überblick über die verschiedenen Ansätze für die Integration von Semantic-Web-Technologien in Content Management Systeme.

7 Min. Lesezeit
Anzeige
Anzeige

Die Zeiten, in denen das Semantic Web als alltagsferne Spinnerei aus dem Elfenbeinturm angesehen wurde, sind vorbei. Spätestens seit Google, Yahoo und Facebook auf den Zug aufgesprungen sind und semantisch angereicherte Daten entweder verarbeiten oder selbst anbieten, ist das Semantic Web in der Mitte des World Wide Web angekommen [1].

Anzeige
Anzeige

Content Management Systeme spielen bei der Verbreitung des Semantic Web eine zentrale Rolle. Über sie wird ein Großteil der Inhalte verwaltet und zu Webseiten aufbereitet. Sie liefern die fertigen Seiten aus, die, einmal um semantische Informationen angereichert, ein neues Gefühl des Surfens im Internet ermöglichen. Derzeit ist zu beobachten, wie sich die Communitys der wichtigsten CMS verstärkt um die Integration des Semantic Web kümmern.

Unter dem Begriff „Semantic Web“ wird im Allgemeinen eine Sammlung aufeinander aufbauender Standards und Technologien verstanden. Man kann also nicht „das“ Semantic Web in ein CMS implementieren, sondern nur bestimmte Technologien und Ausschnitte aus den Anwendungsfeldern, die nun in den CMS aufgegriffen werden. Allen Technologien gemein ist jedoch die Idee, die Tim Berners-Lee einmal so formuliert hat [2] : „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“.

Anzeige
Anzeige

Anwendungsfälle

Eine direkte und erste Anwendung für CMS-Betreiber ergibt sich aus der Tatsache, dass viele Suchmaschinen – darunter Google und Yahoo – mittlerweile Metadaten auswerten, die in den Seiten eingebettet wurden (etwa über RDFa oder Microformats). Aus diesen Metadaten generieren die Suchmaschinen besser aufbereitete Darstellungen der Treffer (siehe Abbildung).

Anzeige
Anzeige
In Google werden zusätzliche Informationen aus Metadaten unterhalb des Treffers angezeigt. In diesem Fall Konzertinfos und Links zu virtuellen Ticketschaltern.

In Google werden zusätzliche Informationen aus Metadaten unterhalb des Treffers angezeigt. In diesem Fall Konzertinfos und Links zu virtuellen Ticketschaltern.

Sind die vom CMS verwalteten Inhalte semantisch angereichert, bieten sich völlig neue Möglichkeiten der Navigation und des Suchens. Neben dem klassischen Seitenbaum, der die Webseite hierarchisch strukturiert, treten in Zukunft automatisch erzeugte Kategoriebäume, Kartendarstellungen oder Kalenderansichten. Die diversen Filter lassen sich dabei beliebig kombinieren und hintereinander anwenden (Faceted Browsing).

Der Semantik-Service Open Calais extrahiert aus herkömmlichen Webseiten Namen, Fakten und Termine.

Der Semantik-Service Open Calais extrahiert aus herkömmlichen Webseiten Namen, Fakten und Termine.

Die Suche nach bestimmten Inhalten wird durch die semantische Anreicherung der Inhalte erheblich vereinfacht. So wird man in Zukunft verstärkt nach Konzepten anstatt nach Begriffen suchen können („Semantic Search“). Eine Suche nach dem Konzept „Golf“ im Sinne des Autos liefert dann keine Treffer mehr zum „Golf von Mexiko“ oder dem „Golfsport“. Zudem kann man mehrstufige Suchen einrichten, die zum ursprünglichen Suchgegenstand in Beziehung stehende Konzepte anbieten: Es werden dann im genannten Beispiel zusätzlich Links zu anderen Automodellen oder Herstellern im gleichen Segment angeboten. Denkbar ist auch ein automatisch zusammengestelltes Glossar zu technischen Begriffen rund ums Auto.

Anzeige
Anzeige

Ein weiteres Anwendungsfeld des Semantic Web ist die Anreicherung der eigenen Inhalte um externe Quellen. Auf einer Seite zu einem Mitarbeiter könnten zum Beispiel aus mehreren externen Quellen alle seine Veröffentlichungen in Zeitschriften gesammelt und als Liste ausgegeben werden (Content Aggregation). Im Unterschied zu den bisherigen Methoden, in denen spezialisierte Web Services kontaktiert werden müssen, lassen sich systeminterne und -externe Daten im Semantic Web mit Hilfe der Sprache SPARQL einheitlich und in einer einzigen Abfrage aggregieren. Eine solche Content Aggregation kann auch unterstützend im Backend stattfinden: Einem Redakteur werden während der Textbearbeitung zusätzliche Informationen angeboten, die er in seinen Text einfließen lassen kann. Schreibt er etwa einen Artikel zu Smartphones, werden ihm alle Personen angezeigt, die in letzter Zeit zu diesem Thema veröffentlicht haben – innerhalb und außerhalb des eigenen CMS.

Ein CMS kann über SPARQL die Inhalte nicht nur als Webseite, sondern auch direkt für semantische Abfragen zur Verfügung stellen (SPARQL-Endpoint). Damit kann ein Internetauftritt zu einem Knoten im rasant wachsenden Linked-Data-Netz werden [3].

Drupal

Drupal ist eines der am häufigsten eingesetzten CMS mit Schwerpunkt auf Social Community Websites. Sehr früh hat der Gründer Dries Buytaerd dem Semantic Web eine strategische Bedeutung für Drupal zugemessen. Mit Drupal 7 (erscheint voraussichtlich im Dezember 2010) wird ein Modul mitgeliefert, das Funktionen für den Umgang mit RDF-Tripeln bereitstellt [4].

Anzeige
Anzeige

Die Hauptanwendung des Moduls besteht in der heutigen Form darin, die Frontend-Ausgabe automatisch mit RDFa anzureichern. Falls dann auf einer Webseite der Titel ausgegeben wird, kann dieser automatisch ausgezeichnet und damit für Maschinen „lesbar“ gemacht werden: <h2 property=„dc:title“> Foo </h2>.

Aloha bindet sich als Layer auf der Seite ein und erlaubt das direkte Editieren „vor Ort“.

Aloha bindet sich als Layer auf der Seite ein und erlaubt das direkte Editieren „vor Ort“.

In Planung ist außerdem, dass eine Drupal-Instanz nicht nur andere SPARQL-Endpoints abfragen, sondern auch selbst als SPARQL-Endpoint dienen kann. Außerdem sollen die verwendeten Content-Modelle mit bestehenden Ontologien verknüpft werden können.

Abgesehen vom Drupal-Core wird derzeit von Lin Clarke im Rahmen von Googles Summer of Code 2010 ein Modul namens „SPARQL Views“ umgesetzt. Es bietet im Wesentlichen eine bequeme Methode, um Daten von externen SPARQL-Endpunkten zu aggregieren und in eine Listenansicht umzuwandeln. Das Modul greift auf die Core-Funktionalitäten zurück und befindet sich derzeit im Alpha-Stadium [5].

Anzeige
Anzeige

Sowohl im RDF-Modul als auch im Modul „SPARQL Views“ wird auf das Framework ARC2 zurückgegriffen, das die Basisfunktionalitäten, etwa das Parsen der SPARQL-Queries oder das Serialisieren in verschiedene Formate, zur Verfügung stellt [3].

TYPO3

TYPO3 ist in Europa das am häufigsten eingesetzte Content Management System. Derzeit ist der Versionszweig 4.x im aktiven Einsatz, während die Version 5 von Grund auf neu entwickelt wird. Seit Anfang 2010 existiert außerdem ein Projekt mit dem Ziel, die Integration von Aspekten des Semantic Web voranzutreiben [6]. Erste Ergebnisse werden in die kommende Version 4.6 (erscheint voraussichtlich im Januar 2011) einfließen. Das betrifft zunächst die technologische Grundlage, um auf gespeicherte Tripel performant zugreifen zu können. Dazu wird die bestehende Datenbank-API leicht erweitert.

In der nächsten Version von TYPO3 4.x wird es möglich sein, Inhalte einer Webseite automatisch mit RDFa auszeichnen zu lassen. Ein dafür benötigtes Mapping definiert man in TypoScript, der Konfigurationssprache von TYPO3. Mit Version 5 hält eine objektorientierte Struktur Einzug in den TYPO3-Kern, der es außerdem ermöglicht, die Semantik von einem Objekt, etwa einer „Person“ auf ein Objekt „Angestellter“ zu vererben. Das vereinfacht die semantische Auszeichnung des Inhalts aus Sicht von Entwicklern und Administratoren.

Anzeige
Anzeige

In der TYPO3-Version 5 wird der Rich-Text-Editor „Aloha“ zum Einsatz kommen [7]. Dieser ermöglicht es, Begriffe in einem Text semantisch auszuzeichnen, ohne den Arbeitsfluss eines Redakteurs zu stören.

Um den Integrationsprozess zu beschleunigen, wird TYPO3 ebenfalls auf ein Semantic-Web-Framework zurückgreifen. Eine endgültige Entscheidung steht hier aber noch aus. Neben dem in Drupal verwendeten ARC2 kommt „Erfurt“ infrage, das auch die Basis von OntoWiki bildet. Eine saubere Definition der Schnittstellen soll aber auch in Zukunft eine Austauschbarkeit der Lösungen gewährleisten.

Joomla

Das ebenfalls weit verbreitete Joomla eignet sich besonders für Auftritte mittlerer Komplexität. Semantic-Web-Vorreiter finden sich hier vor allem in den Erweiterungen. Für die auf Joomla basierende E-Commerce-Lösung „VirtueMart“ steht eine Erweiterung zur Verfügung, die den Produktkatalog mit RDFa auszeichnet und ihn als RDF/XML serialisiert ausgeben kann [8]. Der Inhalt einer mit Joomla generierten Seite kann außerdem mit Hilfe anderer Erweiterungen mit Microformats angereichert werden [9].

Anzeige
Anzeige

WordPress

WordPress ist der mit Abstand bekannteste Vertreter von Blog-Software. Doch auch wenn sich WordPress auf Blogs spezialisiert hat, so lässt es sich auch als Content Management System einsetzen. Die Datenstruktur von WordPress unterstützt die semantische Nutzung von Begriffen. So werden Terms (Kategorien und Tags) zusammen gespeichert und können flexibel genutzt werden. Das Begriffssystem von WordPress ermöglicht Hierarchien, jedoch keine Netze. Bei der Ausgabe semantischer Informationen unterstützt WordPress FOAF (Friend-Of-A-Friend) bereits seit 2005. Weiterhin kann man das Blogsystem über den Service „Open Calais“ zum automatischen Tagging von Posts überreden [10]. Es gibt außerdem Bestrebungen in der Community, RDFa besser nutzbar zu machen. Vorläufiges Ergebnis ist ein Plugin, das FOAF und Dublin-Core-Metadaten ausgibt [11].

OntoWiki

OntoWiki ist eine auf das Semantic Web spezialisierte Wiki-Software, die an der Universität Leipzig entwickelt wird. Sie baut auf das ebenfalls dort entwickelte Semantic-Web-Framework „Erfurt“ auf [12]. Die Inhalte werden in Form von Tripeln und Graphen gespeichert und automatisch zu verschiedenen Ansichten aggregiert; etwa als Kalender, Liste oder Karte. Damit ist OntoWiki ein Vorreiter in Sachen Faceted Browsing.

Die hier vorgestellten Systeme sind allerdings nur ein Ausschnitt aus der weiten Landschaft der CMS. Unter dem Schirm des EU-Projekts „IKS – Interactive Knowledge Stack“ arbeiten unter anderem Plone und Alfresco daran, Semantic-Web-Technologien zu integrieren [13]. Darüber hinaus gibt es Bestrebungen, OntoWiki und TYPO3 miteinander zu verknüpfen.

Anzeige
Anzeige

Ausblick

Nach langen Jahren der Dürre, in denen das Semantic Web als praxisfern galt, entwickelt sich nun eine gewisse Dynamik. Der große Umbruch wird aber wohl ausbleiben. Vielmehr werden die Technologien schrittweise eingeführt werden, Kristallisationspunkte sind meist kleinere Teams, die das notwendige Wissen um die Technologien des Semantic Web in die Communitys tragen. Drupal mausert sich mit der neuen Version zu einem sCMS (semantischen Content Management System) mit RDFa-Support; TYPO3 ist nicht nur auf dem besten Weg, die neue Version ebenfalls mit semantischer Funktionalität auszustatten, sondern arbeitet auch mit Hochdruck daran, die semantische Unterstützung in die bestehende Version zu integrieren. Auch die Community um Joomla arbeitet an Erweiterungen zum Semantic Web. WordPress, häufig als einfaches CMS für Auftritte mit niedriger Komplexität eingesetzt, bietet bereits heute elementare semantische Unterstützung.

Durch die „Linked Open Data“-Bewegung ist die kritische Menge an nutzbaren semantischen Daten erreicht [14], sodass sich durch die neuen Technologien ein echter Mehrwert generieren lässt. Der Kontinentaldrift hat also bereits eingesetzt und geht langsam, aber stetig voran.

Mehr zu diesem Thema
Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
3 Kommentare
Bitte beachte unsere Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Sebastian Kurfürst

Hallo,

es wäre noch zu erwähnen, dass ich gerade im Rahmen meiner Diplomarbeit eine Framework schreibe, welches FLOW3 mit dem semantischen Web verbindet. Dieses Framework wird u.a. auf der T3CON vorgestellt: http://t3con11-frankfurt.typo3.org/sessions/acceptedpapers/paper/flow3_goes_semantic.html

Dieses Framework kann auch eine Grundlage für Semantic Web Integration in TYPO3 Phoenix sein.

Viele Grüße,
Sebastian

Antworten
Nicolas

Drupal 7 („erscheint voraussichtlich im Dezember 2010“).

Antworten
THO

Semantic MediaWiki wäre auch zu erwähnen, für alle, die gerne die bekannte Wikipedia-Plattform benutzen. Allerdings funktioniert die Auszeichnung der Inhalte hier nicht automatisch.

Antworten

Melde dich mit deinem t3n Account an oder fülle die unteren Felder aus.

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Anzeige
Anzeige