Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

Software & Infrastruktur

Semantische Suche – ein Status Quo

    Semantische Suche – ein Status Quo

Suchmaschinen werden von Internetusern täglich genutzt. Nach etwas „googeln“ hat es als Synonym für die Suche im Netz nicht nur ins umgangssprachliche Vokabular, sondern auch in den Duden geschafft. Eine Suchmaschine zu bedienen ist einfach und intuitiv – die Anwender geben einen Begriff ein und erwarten, die relevantesten Treffer zu finden. Um diese Erwartungshaltung zu erfüllen, müssen Entwickler von Such-Engines hoch komplexe Beziehungen und logische Prozesse beachten. „Semantische Suche“ ist dafür die Lösung. Dieser Artikel erklärt, was dahinter steckt.

Um die Richtigkeit, Genauigkeit und Relevanz der Treffer von Suchbegriffen für den Benutzer zu verbessern, wird vor allem die Rolle von künstlicher Intelligenz im Suchprozess immer wichtiger. Das Verstehen der Bedeutung setzt dabei auf mehreren Ebenen an: zum einen bei der Absicht oder dem Ziel des Benutzers, zum anderen bei den Beziehungen und dem Kontext der Begriffe in der Datenbasis.

In Informationssystemen stehen stets Zeichen für Dinge, in ASCII etwa die Zahl 65 für den lateinischen Buchstaben „A“. Wenn es darum geht, Wissen zu beschreiben und auch neues Wissen abzuleiten, bildet Logik die Ausgangsbasis. Auch die effiziente Abbildung als Datenstrukturen ist von Bedeutung. Dabei arbeiten das Resource Description Framework Schema (RDFS), die Web Ontology Language (OWL) oder auch die Beschreibungslogik als Repräsentationssprachen alle auf Basis von Entitäten und deren Beziehungen.

Klassen, Eigenschaften, Instanzen

Zum Beispiel OWL: Hier gibt es grundsätzlich Klassen, Eigenschaften und Instanzen. Klassen stehen für Begriffe und können Eigenschaften besitzen. Eigenschaften sind stets binäre Relationen zwischen Individuen, die auch Literale sein können.

<Person rdf:about="John">
           <hasAge rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">51</hasAge>
</Person>

Diese Information in Form der Triple Syntax macht den Sachverhalt deutlicher:

:John :hasAge 51.

Der Vorteil gegenüber Datenbanken liegt darin, dass Triple-Sets Graphen bilden und daraus neue Aussagen gefolgert werden können. Dazu lässt sich eine Abfragesprache wie SPARQL verwenden, im einfachen Fall durch Subgraph-Matching. Darüber hinaus modellieren die Sprachen RDFS und OWL spezielle Beziehungen, die über die direkte Graphenrepräsentation hinausgeht.

Anzeige

Strukturierte Daten

Einen großen Teil der Informationen im Web bilden heute aus strukturierten Daten erzeugte Seiten. Zum Beispiel ist die Antwort eines Wetterportals zu einer bestimmten Zeit nur von der Angabe des Orts abhängig. Da die Weiterverarbeitung von Webinhalten durch Maschinen immer wichtiger wird, betten viele Anwendungen deren strukturierte Daten direkt in die Webseiten ein. In HTML integrierbare, präsentationsneutrale Metaformate wie Microdata, Microformats, RDFa, Open Graph oder Schema.org, bieten Vokabulare unter anderem für Ereignisse, Personen und Organisationen, soziale Beziehungen, Produkte, Lebensläufe oder auch Rezepte.

Eine besondere Form semantischer Suchmaschinen bilden sogenannte Question-Answering-Systeme, die Fragen direkt in natürlicher Sprache strukturiert beantworten. Als populärer Vertreter sorgte im Februar 2011 IBM Watson für weltweites Aufsehen. Das System trat in der Live Fernsehquizshow Jeopardy! an, wo es sogar den 74-maligen Jeopardy-Gewinner Ken Jennings besiegte und den ersten Platz erreichte. Watson ist auch ein gutes Beispiel, dass ein Bündel von Methoden zum Ziel führt. Watson stellt mehrere Hypothesen mit verschiedenen Verfahren auf und arbeitet dann mit Indizien oder Anhaltspunkten, um eine zuverlässige Antwort zu finden.

Die Bedeutung der Eingabe

Innerhalb der Semantik unterscheidet man die Bedeutung einzelner Wörter (lexikalische Semantik), die Bedeutung von Sätzen, Texten und Diskursen. Bei der lexikalischen Semantik werden die Struktur und die lexikalischen Beziehungen zwischen Wörtern analysiert. Lexikalische Beziehungen können zum Beispiel Hypernymie und Hyponymie sein. Das Wort „Gebäude“ etwa ist ein Hypernym von „Einfamilienhaus“ und letzteres ist ein Hyponym von ersterem. Daneben gibt es Antonyme, Meronyme, Holonyme, Synonyme, Homonyme und so weiter.

Der nächste Schritt besteht darin, die Bedeutung einzelner Wörter auf die Bedeutung von Sätzen zusammenzufügen. Das ist bei natürlicher Sprache ein schwieriges Problem, da das sogenannte Kompositionalitätsprinzip nicht oder nur teilweise gegeben ist: Zusammengesetzte Wörter haben meist eine zusätzliche Bedeutung, die über die Summe der einzelnen Wortbestandteile hinausgeht. Daneben gibt es Redensarten oder Redewendungen, bei denen die Bedeutung völlig eigenständig ist.

Zwischen Sätzen gibt es zudem sogenannte anaphorische Verbindungen. Anaphorik bezeichnet den Verweis eines Satzes auf einen anderen, vorherigen Satz. Verweise werden über Nominalphrasen gebildet. Die Bedeutung mehrerer Sätze zwischen Personen bildet die sogenannte Diskurssemantik.

Das Ziel der Anfrage verstehen

Zwar ist die durchschnittliche Länge einer Suchanfrage inzwischen auf 3 Wörter gestiegen und auch die Anzahl von Einwortsuchen geht deutlich zurück. Dennoch sind Eingaben in der Regel recht knapp formuliert für den Ausdruck des eigentlichen Ziels, das mit einer Suche beabsichtigt wird. Der dahinterliegende Zweck bestimmt aber die subjektive Relevanz eines Suchergebnisses.

Dabei werden drei wesentliche Arten von Eingaben unterschieden: Sucht der Benutzer nach Informationen, möchte er Treffer zu dieser Anfrage finden. Zum Zweck der Navigation will er möglichst schnell und direkt auf eine bestimmte Seite gelangen. Schließlich möchte er heute in vielen Fällen auch eine Aufgabe erledigen, wie den Einkauf von Waren, das Herunterladen von Daten, das Durchführen einer Überweisung oder ähnliches.

Für Semantische Suche ist die Einteilung nach groben Zielen nur ein Anfang. Zusätzlich muss sie die Problemstellung analysieren und dabei dem Benutzer direkte Lösungen anstelle von Treffern geben. Im Folgenden werden Methoden dargestellt, wie aus den Anfragedaten und den Inhalten im Web die Zusammenhänge analysiert werden können.

Adaptive Systeme

Anwender wissen aus eigener Erfahrung, dass Suche ein mehrstufiger Prozess ist und sich während des Vorgangs die Ausgangslage oft ändert. Semantische Suche kann Abhilfe schaffen, indem zeitliche oder räumliche Fakten oder auch begriffliche Beziehungen erkannt und die Suchergebnisse automatisch ausgeweitet oder eingeschränkt werden. Dennoch kann auch hier der Benutzer durch neue Erkenntnisse seine Absichten ändern. Diesen Prozess als Ganzes zu unterstützen ist ein wesentlicher Punkt einer intelligenten Suche. Bei einer Suchmaschine lässt sich aber kein allgemeingültiges Modell verwenden, um Relevanz zu klassifizieren.

Populäre Suchmaschinen wie Bing oder Google praktizieren heute Personalisierte Suche. Im Umgang mit diesen Systemen ist zu erkennen, dass Transparenz ein wichtiges Kriterium für den Benutzer ist. Wenn die sogenannte Präzision auf Kosten der Erinnerung geht, stellt man sich Fragen wie: Gibt es zu einer Anfrage genau die präsentierten Treffer oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer muss auch in diese Entscheidungen eingebunden werden.

Open Information Extraction

Das traditionelle Information Extraction (IE) erfährt derzeit durch Open Information Extraction (OIE) einen Paradigmenwechsel. Bei OIE sollen nur wenige Durchläufe, idealerweise nur einer, über den Korpus erfolgen, um möglichst automatisch eine große Anzahl von Aussagen über Entitäten zu extrahieren. Dabei soll neutral zu Fachgebieten vorgegangen und dadurch IE im Web anwendbar gemacht werden.

Das OIE System TextRunner besteht etwa aus einem Learner, einem Extractor und einem Assessor. So wird zwar beim Extractor auf das Parsen verzichtet, der Learner verwendet jedoch einen Parser, um für den Extractor ein Modell zu trainieren. Extrahiert werden Trippel, die eine Beziehung zwischen zwei Entitäten abbilden. Der Learner produziert einen sprachspezifischen, aber domänenunabhängigen Klassifizierer. Der Extractor macht einen Durchlauf über den Inhalt und weist den Wörtern automatisch die wahrscheinlichste Part-Of-Speech Information zu. Beziehungen werden durch Text zwischen Hauptwortphrasen gefunden und dem Klassifizierer übergeben, der diese auf Vertrauenswürdigkeit untersucht. Das TextRunner System kann zudem direkt Suchen in Form von Trippel durchführen.

Entity Linking

Entity Linking ist der Vorgang, aus Text extrahierte Entitäten mit der passenden Entität in einer existierenden Wissensbasis zu verlinken. Dabei gilt es, textuelle Repräsentationen wie „Big Apple“ etwa mit Seiten über New York zu verbinden. So wird eine im Text vorkommende Entität mit einem Objekt in der Wissensbasis verknüpft, wenn es eine entsprechende Ähnlichkeit des Kontexts gibt. Ein weiteres Anwendungsgebiet dieser Methode ist Entity Search, das die verlinkten Entitäten mit einem sogenannten EntityRank versieht.

Topic Models

Latent Dirichlet Allocation (LDA) ist ein statistisches Modell zur Berechnung von Themen aus großen Dokumentensammlungen. Jedes Dokument ist eine Mischung aus den Topics eines Korpus. Dabei entsprechen Themen einer statistischen Verteilung von Wörtern. Ein Wort wird aus einen dieser Topics generiert. In der Verarbeitung von Text sind die vorhandenen Größen lediglich die Dokumente und deren Bestandteile. Den Rest bilden sogenannte versteckte Variablen, die es zu berechnen gilt. Das Modell kann auch Mehrdeutigkeit abbilden, da ein Wort von mehreren Themen generiert werden kann. Zudem gibt es Ansätze, LDA im Ad-Hoc Retrieval einzusetzen.

Fazit

Mit der Verfügbarkeit des Webs als weltumspannende Datenbasis und den vorhandenen Rechenkapazitäten entstehen neue Möglichkeiten der Informationsverarbeitung, die über derzeitige Suchmechanismen deutlich hinausgehen. Wikipedia, Freebase und weltweite soziale Netzwerke bilden Wissensbasen, die das Entschlüsseln von Bedeutungen vereinfachen. Semantische Werkzeuge verändern bereits heute die Suche und das Potential zur Weiterentwicklung und Perfektionierung ist noch lange nicht ausgeschöpft.

Weiterführende Links

Über den Autor

jakob praherJakob Praher arbeitet als technischer Leiter bei der Mindbreeze GmbH mit Hauptsitz in Linz/Österreich. Er beschäftigt sich dort mit Information Extraction und der Architektur der Mindbreeze-Suchmaschine sowie dahinterliegenden innovativen Algorithmen und Datenstrukturen.

Finde einen Job, den du liebst

2 Reaktionen
lambert.schuster
lambert.schuster

Da kann ich tomicek nur zustimmen: "Wow - das ist ein super Artikel über die semantische Suche." Besonders da, wo der Artikel weniger spezifisch war, habe ich eine Menge dazugelernt.

Ich beschäftige mich seit vier Jahren am Rande meiner Tätigkeit mit der semantischen Suche.

Als Unternehmensberater für kleine und mittlere Unternehmen und für StartUp stelle ich auf meiner Wissensdatenbank enorm viel Wissen für Unternehmer zur Verfügung. Mit der Zeit wurde es immer schwieriger mit der Stichwortsuche von WordPress brauchbare Suchergebnisse zu erzielen.

Seit dem 14.10.2013 habe ich auf meiner Website die semantische Suche der SEMPRIA GmbH aus Düsseldorf installiert:

http://lambertschuster.de/seo-google/semantische-suchmaschine/

Die Ergebnisse sind sehr interessant. Wer sich dafür interessiert kann das hier mal ausprobieren:

http://lambertschuster.de/Blog

Ich selbst hoffe, dass meine Leser das, was sie suchen, jetzt besser finden.

Antworten
tomicek
tomicek

wow. Das ist eine super artikel über semantic web. Vielen Dank dafür. Weiter so.

"Gibt es zu einer Anfrage genau die präsentierten Treffer oder hat die Suchmaschine bereits vorher die Relevanzkriterien geändert? Der Benutzer muss auch in diese Entscheidungen eingebunden werden."

Besonders bei der personalisierten Suche muss es noch viel besser werden...
Hier ein tolles Interview mit Miram Meckel

http://www.srf.ch/player/tv/einstein/video/gefangen-in-der-google-welt-kommunikationsexpertin-miriam-meckel-im-gespraech-mit-einstein-moderator-tobias-mueller?id=f65e3e18-dbd4-4919-90d2-3ffbfcbaf312

Antworten
Bitte melde dich an!

Du musst angemeldet sein, um einen Kommentar schreiben zu können.

Jetzt anmelden

Hinweis

Du hast gerade auf einen Provisions-Link geklickt und wirst in Sekunden weitergeleitet.

Bei Bestellung auf der Zielseite erhalten wir eine kleine Provision – dir entstehen keine Mehrkosten.


Weiter zum Angebot