Du hast deinen AdBlocker an?

Es wäre ein Traum, wenn du ihn für t3n.de deaktivierst. Wir zeigen dir gerne, wie das geht. Und natürlich erklären wir dir auch, warum uns das so wichtig ist. Digitales High-five, deine t3n-Redaktion

t3n 19

Business Intelligence mit Open Source: Vergleich der BI-Lösungen Jaspersoft, Jedox Palo und Pentaho

Software für Business Intelligence (BI) hilft nicht nur größeren Unternehmen bei der Optimierung von Geschäftsprozessen und Wertschöpfung, sondern bietet auch Agenturen und Dienstleistern aus dem Open-Source-Umfeld ein interessantes Tätigkeitsfeld. Schließlich geht es bei BI darum, operative und strategische Entscheidungen zu optimieren. Mittlerweile stehen neben kommerziellen Lösungen auch professionelle Open-Source-Alternativen zur Verfügung.

Ziel ist die Gewinnung von Erkenntnissen, die in Hinsicht auf die Unternehmensziele bessere operative oder strategische Entscheidungen ermöglichen. Dies geschieht mit Hilfe von analytischen Konzepten und IT-Systemen, die Daten über das eigene Unternehmen, die Mitbewerber oder Marktentwicklung im Hinblick auf den gewünschten Erkenntnisgewinn auswerten.

In wirtschaftlich turbulenten Zeiten wird gewohnheitsmäßig der Ruf nach Transparenz, Effizienz und besserer Führung laut: Das Management soll das Unternehmen trotz schärferen Wettbewerbs und kürzerer Reaktionszeiten auf Kurs halten und die richtigen Entscheidungen treffen. Unternehmensdaten und -informationen als Grundlage für derartige Entscheidungen müssen in solchen Zeiten besonders aussagekräftig sein.

Einen Boom erlebt daher derzeit Software für Business Intelligence. Unter dem Begriff werden gemeinhin Prozesse und Verfahren zur systematischen Sammlung, Auswertung und Präsentation von Unternehmensdaten verstanden. Die Gründe für den Einsatz von BI-Software sind vielfältig und beinhalten unter anderem den Wunsch, Kosten zu senken, Geschäftsabläufe zu optimieren, Risiken zu minimieren, Kundenbeziehungen profitabler zu gestalten und allgemein die Wertschöpfung zu vergrößern.

Business Intelligence mit Open Source

BI-Projekte sind stark multidisziplinär geprägt. Neben Technologien, die Daten aus operativen Systemen extrahieren, kommen meist auch Werkzeuge zur analytischen Aufbereitung der Daten sowie Tools für die Gestaltung von Berichten und Auswertungen zum Einsatz. Um die Thematik Business Intelligence herum hat sich so ein profitabler Softwaremarkt entwickelt.

Neben Big Playern wie IBM, SAP und Oracle haben sich in den letzten beiden Jahren einige Open-Source-Anbieter im wachstumsstarken Markt für Business-Intelligence-Software etabliert. Besonders erwähnenswert aufgrund der professionellen Qualität ihrer Produkte und Dienstleistungen sind der deutsche Anbieter Jedox [1] sowie die beiden amerikanischen Unternehmen Jaspersoft [2] und Pentaho [3].

Diesen drei Anbietern ist ein Geschäftsmodell gemein, das sie selbst als „Commercial Open Source“ bezeichnen. Es umfasst eine kostenfreie Community-Version und eine kostenpflichtige Enterprise-Version mit Herstellersupport und speziellen Features. Dennoch unterscheiden sich die drei Open-Source-Probanden voneinander: Jaspersoft und Pentaho bieten einen plattformorientierten Ansatz, der die komplette Bandbreite an BI-Funktionalität mittels modularer Werkzeuge abdeckt. Palo richtet sich hingegen an den Fachanwender mit einem mächtigen, multidimensionalen Analyseinstrument über ein Excel-Frontend [4]. Im Folgenden geht es um die Unterschiede der Lösungen in den Themenbereichen Datenintegration, Analyse und Reporting.

Datenintegration im Data Warehouse

Eine zentrale Aufgabenstellung im BI-Umfeld ist die Definition von Extraktions-, Transformations- und Ladeprozessen (ETL), um die Daten aus den unterschiedlichsten Quellen im Unternehmen aufbereitet in einem Data Warehouse zusammenzuführen. Das Data Warehouse entspricht dem zentralen Datenlager eines Unternehmens, in dem die steuerungsrelevanten Informationen standardisiert für Analyse und Berichtswesen aufbewahrt werden.

Jedox bietet für diese Aufgabenstellung den Palo ETL-Server an. Der Server besteht aus einer Java-Anwendung, die als Webdienst bereitgestellt wird und die Befüllung der Palo-Datenbank durch ETL-Prozesse ermöglicht. Die notwendigen Verarbeitungsschritte werden in einer Baumstruktur gepflegt. In der Enterprise-Version von Palo ist auch eine Anbindung an SAP möglich.

Definition von ETL-Prozessen für unterschiedliche Datenquellen mit der Pentaho Data Integration.
Definition von ETL-Prozessen für unterschiedliche Datenquellen mit der Pentaho Data Integration.
Sowohl Jaspersoft als auch Pentaho verfolgen bei der Datenintegration einen anderen Ansatz: Die ETL-Anwendungen JasperETL beziehungsweise Pentaho Data Integration haben eine Oberfläche, auf der ETL-Prozesse per Drag & Drop zusammengestellt werden können. JasperETL besteht im Wesentlichen aus dem Talend Open Studio, während Pentaho Data Integration auf Kettle basiert. Kettle ist ein gut bedienbares Tool mit ebenso vielen Konnektoren und Features wie Jasper-ETL. Positiv anzumerken ist, dass es eine Reihe – teilweise kostenpflichtiger – Plugins und Bibliotheken gibt, sodass sich beispielsweise auch SAP problemlos über Kettle oder Talend anbinden lässt.

Datenanalyse mit OLAP-Cubes

Sind die heterogenen Datenquellen in ein Data Warehouse integriert, gilt es, die Daten für die Analyse aufzubereiten. Dazu baut man so genannte OLAP-Würfel, die verschiedene Dimensionen und Kennzahlen enthalten. Mit Navigationsfunktionen lassen sich die Daten aus unterschiedlichen Perspektiven innerhalb eines Würfels betrachten.

Zugriff auf multidimensionale Daten in Palo per Excel Add-in oder Weboberfläche.
Zugriff auf multidimensionale Daten in Palo per Excel Add-in oder Weboberfläche.
Palo setzt zum einen auf multidimensionales OLAP (MOLAP) und zum anderen auf eine In-memory-Technologie. Das bedeutet, dass die Daten in einem speziellen Datenbankformat und im Arbeitsspeicher für die Analyse gehalten werden. Dieser Ansatz hat zwei Vorteile: Zum einen ist die Abfragegeschwindigkeit sehr hoch, zum anderen lassen sich die Daten direkt über das Frontend in die Datenbank zurückschreiben.

Palo bietet auch ein Excel-Add-in, wovon die Hauptzielgruppe – nämlich Mitarbeiter aus Controlling und anderen Fachabteilungen – besonders profitiert, da sie oftmals ohnehin mit Excel arbeitet. Der Anwender greift über das Add-in auf den Palo-Server zu, um in Excel durch den multidimensionalen Datenraum zu navigieren. Der Worksheet-Server macht Excel webfähig, sodass man die Daten auch über Intra- und Internet erreichen kann.

Jaspersoft und Pentaho verwenden in den Community Versionen für die Datenanalyse das Mondrian Project. Im Gegensatz zum MOLAP-Ansatz von Palo kommt bei ihnen relationales OLAP (ROLAP) zum Einsatz. Hier werden die Daten in relationalen Datenbanken gehalten und durch spezielle Schemata (Snowflake oder Star) aufbereitet. Die Weboberfläche bietet bei beiden Lösungen solide OLAP-Funktionalität: Der Anwender kann die Daten nach Belieben filtern, sortieren und in unterschiedlichen Detaillierungsgraden betrachten. Eine alternative Oberfläche bietet Pentaho in der Enterprise-Version mit dem Pentaho Analyzer. Sie überzeugt durch sehr gute, intuitive Bedienbarkeit und erweiterte Export- und Darstellungsmöglichkeiten. Möchte man als Pentaho-Anwender nicht auf die Auswertungsmöglichkeiten in Excel verzichten, hilft der Drittanbieter Simba weiter: Mit seiner kostenpflichtigen ODBO-Schnittstelle kann man aus Excel-Pivottabellen heraus auf die Daten im OLAP-Cube von Pentaho zugreifen.

Finde einen Job, den du liebst

Bitte beachte unsere Community-Richtlinien

7 Reaktionen
torey

Der Link zur Studie ist leider falsch. hier der richtige Link

adil

Hallo Ralf,
vielen Dank für deine Hilfe.
Patentportfolio dient eigentlich zur Auswertung und Aufzeigen von Ergebnissen.
was muss eigentlich vebessert werden damit diese Tools für Patentanaylse eignen?
die Methoden von Patentanalyse wie oben geschrieben: Clusteranalyse, Portfolioanalyse, Produktfamlien und Textmining...

Ich wäre für alle Vorschläge sehr Dankbar.

Viele Grüße
Adil Bachari

Frank Xavier

Hallo Adil Bachari,

hier ist die Fortsetzung der Vergleichsliste:

8) ETL: Jasper (JasperETL = Talend): ja. Pentaho (Kettle): ja. RapidMiner: ja.
Palo: ?

9) Patentportfolio: Was genau ist die technische Anforderung?
Bewertung von Portfolio-Positionen, Potentialen oder Risiken mit Data Mining, Text Mining
und Predictive Analytics: Pentaho (Weka) und RapidMiner: ja. Jasper und Palo: nein.

10) Produktfamilien, Clusteranalyse, Text Clustering, automatische Text Kategorisierung:
Pentaho (Weka) und RapidMiner: ja. Jasper und Palo: nein.

Wenn es wirkliche um text-/inhaltsbezogene Analyse und Clustering von Patenten geht, sind Jasper und Palo nicht dafür ausgelegt, allenfalls in Kombination mit einer Lösung wie RapidMiner.

Mit RapidMiner und Pentaho (inkl. Weka) ließen sich die beschriebenen Aufgaben aber lösen. Gerade im Bereich Text Mining halte ich RapidMiner dabei für deutlich leistungsstärker und flexibler einsetzbar als Weka/Pentaho.

Alle Angaben spiegeln natürlich nur meinen individuellen Wissenstand und meine Meinung wieder und sind ohne Gewähr. Nichts desto trotz hoffe ich, dass sie hilfreich sind.

Viele Grüße
Ralf

Bachari

Hallo Frank,

Vielen dank, dass du Zeit genommen und mir geholfen hast.
wie sieht bei ETL aus?
ich muss noch die kriterien von Patentanalyse untersuchen, ob die drei Tools (palo, jasper , pentaho)
für patentanalyse eignen.
zum Bespiel für Patentportfolio, Produktfamilien, clusteranalyse und text mining im zusammenhang mit der Patentanalyse.

Ziel der Arbeit ist eigentlich : Verwendbarkeit von palo, jasper, pentaho für Patentanalysen einzuschätzen und eventuelle Anpassungs- und Ent-wicklungsvorgänge zu definieren

Herzlichen dank nochmal.
Adil Bachari

Frank Xavier

Hallo Bachari,

da weder Jasper noch Palo Text Mining anbieten, ergänze ich Deine Liste noch die Open-Source-Lösung RapidMiner ( http://www.RapidMiner.com/ ). Hier ist die entsprechende Übersicht:

1) Tabellarisierung: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.

2) Einfache Diagramme: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.

3) Matrizen: Was genau ist hier gemeint?
Matrix-Diagramme: RapidMiner: ja; alle anderen: vermutlich auch.
Verarbeitung von Daten in Matrix-Form: RapidMiner: ja; alle anderen vermutlich auch.

4) Reporting: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.

5) Analytische Auswertung:
(a) einfache Analyse: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.
(b) Data Mining und Predictive Analytics: Pentaho und RapidMiner: ja; Palo und Jasper: nein.

6) Text Mining: Pentaho und RapidMiner: ja; Palo und Jasper: nein.

7) Dashboards: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.

Man kann die Lösungen auch in Kombination einsetzen, z.B. JasperSoft für OLAP, Dashboards und Reporting und RapidMiner für Data Mining, Text Mining und Predictive Analytics.

Viel Spaß mit den genannten Open Source Business Intelligence Lösungen,
Frank

Bachari

Hallo,
ich schreibe gerade DA über die Verwendbarkeit von palo, jasper und Pentaho in Bereich Patentanalyse.
kann mir jemand vllt hilfen?
die ausgewählte kriterien sind:
1 Tabellarisierung
2 einfache Diagramme
3 Matrizen
4 Reporting
5 Analytische Auswertung
6 Textminung
7 Dashboard

Vielen Dank

Frank Xavier

Sehr geehrte Frau Ilkem Güclü, sehr geehrter Herr Stefan Müller,

vielen Dank für diesen interessanten Artikel zum Thema Open Source Business Intelligence. Dieser Artikel gibt einen guten ersten Überblick zum Thema. Als vierten Open Source Business Intelligence Anbieter hatte ich gerne die Rapid-I GmbH ( http://www.rapid-i,com/ ) aus Deutschland mit Ihren Open Source Lösungen RapidMiner und RapidAnalytics im Vergleich gesehen. Mit diesen Lösungen lassen sich ebenfalls alle Schritte eines BI-Prozesses von der Datenintegration (ETL) über die Analyse und das Data Mining bis zum Reporting abdecken. Diese Lösungen werden bereits von vielen Unternehmen in über 60 Ländern weltweit eingesetzt:
http://rapid-i.com/content/view/8/56/

Mit freundlichen Grüßen
Frank Xavier

Du musst angemeldet sein, um einen Kommentar schreiben zu können.

Jetzt anmelden