Business Intelligence mit Open Source: Vergleich der BI-Lösungen Jaspersoft, Jedox Palo und Pentaho
Ziel ist die Gewinnung von Erkenntnissen, die in Hinsicht auf die Unternehmensziele bessere operative oder strategische Entscheidungen ermöglichen. Dies geschieht mit Hilfe von analytischen Konzepten und IT-Systemen,
die Daten über das eigene Unternehmen, die Mitbewerber oder
Marktentwicklung im Hinblick auf den gewünschten Erkenntnisgewinn
auswerten.
In wirtschaftlich turbulenten Zeiten wird gewohnheitsmäßig der Ruf nach Transparenz, Effizienz und besserer Führung laut: Das Management soll das Unternehmen trotz schärferen Wettbewerbs und kürzerer Reaktionszeiten auf Kurs halten und die richtigen Entscheidungen treffen. Unternehmensdaten und -informationen als Grundlage für derartige Entscheidungen müssen in solchen Zeiten besonders aussagekräftig sein.
Einen Boom erlebt daher derzeit Software für Business Intelligence. Unter dem Begriff werden gemeinhin Prozesse und Verfahren zur systematischen Sammlung, Auswertung und Präsentation von Unternehmensdaten verstanden. Die Gründe für den Einsatz von BI-Software sind vielfältig und beinhalten unter anderem den Wunsch, Kosten zu senken, Geschäftsabläufe zu optimieren, Risiken zu minimieren, Kundenbeziehungen profitabler zu gestalten und allgemein die Wertschöpfung zu vergrößern.
Business Intelligence mit Open Source
BI-Projekte sind stark multidisziplinär geprägt. Neben Technologien, die Daten aus operativen Systemen extrahieren, kommen meist auch Werkzeuge zur analytischen Aufbereitung der Daten sowie Tools für die Gestaltung von Berichten und Auswertungen zum Einsatz. Um die Thematik Business Intelligence herum hat sich so ein profitabler Softwaremarkt entwickelt.
Neben Big Playern wie IBM, SAP und Oracle haben sich in den letzten
beiden Jahren einige Open-Source-Anbieter im wachstumsstarken Markt für
Business-Intelligence-Software etabliert. Besonders erwähnenswert aufgrund der professionellen Qualität ihrer Produkte und Dienstleistungen sind der deutsche Anbieter Jedox [1] sowie die beiden amerikanischen Unternehmen Jaspersoft [2] und Pentaho [3].
Diesen drei Anbietern ist ein Geschäftsmodell gemein, das sie selbst als „Commercial Open Source“ bezeichnen. Es umfasst eine kostenfreie Community-Version und eine kostenpflichtige Enterprise-Version mit Herstellersupport und speziellen Features. Dennoch unterscheiden sich die drei Open-Source-Probanden voneinander: Jaspersoft und Pentaho bieten einen plattformorientierten Ansatz, der die komplette Bandbreite an BI-Funktionalität mittels modularer Werkzeuge abdeckt. Palo richtet sich hingegen an den Fachanwender mit einem mächtigen, multidimensionalen Analyseinstrument über ein Excel-Frontend [4]. Im Folgenden geht es um die Unterschiede der Lösungen in den Themenbereichen Datenintegration, Analyse und Reporting.
Datenintegration im Data Warehouse
Eine zentrale Aufgabenstellung im BI-Umfeld ist die Definition von Extraktions-, Transformations- und Ladeprozessen (ETL), um die Daten aus den unterschiedlichsten Quellen im Unternehmen aufbereitet in einem Data Warehouse zusammenzuführen. Das Data Warehouse entspricht dem zentralen Datenlager eines Unternehmens, in dem die steuerungsrelevanten Informationen standardisiert für Analyse und Berichtswesen aufbewahrt werden.
Jedox bietet für diese Aufgabenstellung den Palo ETL-Server an. Der Server besteht aus einer Java-Anwendung, die als Webdienst bereitgestellt wird und die Befüllung der Palo-Datenbank durch ETL-Prozesse ermöglicht. Die notwendigen Verarbeitungsschritte werden in einer Baumstruktur gepflegt. In der Enterprise-Version von Palo ist auch eine Anbindung an SAP möglich.
Sowohl Jaspersoft als auch Pentaho verfolgen bei der Datenintegration einen anderen Ansatz: Die ETL-Anwendungen JasperETL beziehungsweise Pentaho Data Integration haben eine Oberfläche, auf der ETL-Prozesse per Drag & Drop zusammengestellt werden können. JasperETL besteht im Wesentlichen aus dem Talend Open Studio, während Pentaho Data Integration auf Kettle basiert. Kettle ist ein gut bedienbares Tool mit ebenso vielen Konnektoren und Features wie Jasper-ETL. Positiv anzumerken ist, dass es eine Reihe – teilweise kostenpflichtiger – Plugins und Bibliotheken gibt, sodass sich beispielsweise auch SAP problemlos über Kettle oder Talend anbinden lässt.
Datenanalyse mit OLAP-Cubes
Sind die heterogenen Datenquellen in ein Data Warehouse integriert, gilt es, die Daten für die Analyse aufzubereiten. Dazu baut man so genannte OLAP-Würfel, die verschiedene Dimensionen und Kennzahlen enthalten. Mit Navigationsfunktionen lassen sich die Daten aus unterschiedlichen Perspektiven innerhalb eines Würfels betrachten.
Palo setzt zum einen auf multidimensionales OLAP (MOLAP) und zum anderen auf eine In-memory-Technologie. Das bedeutet, dass die Daten in einem speziellen Datenbankformat und im Arbeitsspeicher für die Analyse gehalten werden. Dieser Ansatz hat zwei Vorteile: Zum einen ist die Abfragegeschwindigkeit sehr hoch, zum anderen lassen sich die Daten direkt über das Frontend in die Datenbank zurückschreiben.
Palo bietet auch ein Excel-Add-in, wovon die Hauptzielgruppe – nämlich Mitarbeiter aus Controlling und anderen Fachabteilungen – besonders profitiert, da sie oftmals ohnehin mit Excel arbeitet. Der Anwender greift über das Add-in auf den Palo-Server zu, um in Excel durch den multidimensionalen Datenraum zu navigieren. Der Worksheet-Server macht Excel webfähig, sodass man die Daten auch über Intra- und Internet erreichen kann.
Jaspersoft und Pentaho verwenden in den Community Versionen für die Datenanalyse das Mondrian Project. Im Gegensatz zum MOLAP-Ansatz von Palo kommt bei ihnen relationales OLAP (ROLAP) zum Einsatz. Hier werden die Daten in relationalen Datenbanken gehalten und durch spezielle Schemata (Snowflake oder Star) aufbereitet. Die Weboberfläche bietet bei beiden Lösungen solide OLAP-Funktionalität: Der Anwender kann die Daten nach Belieben filtern, sortieren und in unterschiedlichen Detaillierungsgraden betrachten. Eine alternative Oberfläche bietet Pentaho in der Enterprise-Version mit dem Pentaho Analyzer. Sie überzeugt durch sehr gute, intuitive Bedienbarkeit und erweiterte Export- und Darstellungsmöglichkeiten. Möchte man als Pentaho-Anwender nicht auf die Auswertungsmöglichkeiten in Excel verzichten, hilft der Drittanbieter Simba weiter: Mit seiner kostenpflichtigen ODBO-Schnittstelle kann man aus Excel-Pivottabellen heraus auf die Daten im OLAP-Cube von Pentaho zugreifen.
Ein Berichtswesen realisieren
Hat man Daten gesammelt und diese ausgewertet, müssen die Ergebnisse in Berichten zusammengefasst werden. Auch diese Aufgabe lässt sich mit Business-Intelligence-Software erledigen. Ziel eines guten Berichtswesens ist es, die jeweiligen Mitarbeiter einfach und schnell mit standardisierten, intuitiv verständlichen Informationen zu versorgen.
Sollen aus Palo-Daten Berichte erstellt werden, ist man zunächst vollkommen auf die Excel-Funktionalität angewiesen, was die Formatierung und grafische Darstellung betrifft. Die Verteilung der Berichte kann lediglich über einen File-Server oder per E-Mail erfolgen. Zieht man den Worksheet-Server hinzu, lassen sich die Berichte zusätzlich über eine Weboberfläche verteilen und spezielle Grafiken nutzen.
Auch in diesem Punkt unterscheiden sich Jaspersoft und Pentaho von der Palo-Lösung: Beide Anbieter bieten zunächst die Option, ein Adhoc-Reporting im Browser durchzuführen. Auf diese Weise haben auch technisch weniger versierte Anwender die Möglichkeit, einfache Berichte zu erstellen. Für den Aufbau eines Standard-Reportings, das in regelmäßigen Abständen die gleichen Berichte mit aktuellen Zahlen ausgeben soll, gibt es einen eigenen Berichtsdesigner. Damit können die unterschiedlichen Elemente und Grafiken eines Berichts auf einer Art Schablone positioniert werden, die regelmäßig mit Daten befüllt wird.
Sowohl JasperSoft als auch Pentaho stellen eine Vielzahl an Berichtselementen und Grafiken bereit, sodass sich komfortabel Berichte und Dashboards erstellen und schließlich in unterschiedlichen Ausgabeformaten zu festgelegten Zeitpunkten publizieren lassen. Der fertige Bericht kann dann entweder von berechtigten Empfängern auf einer Website abgerufen oder auf einem Fileserver abgelegt werden.
Mit dem Berichtsdesigner von JasperSoft lassen sich Elemente und Grafiken anlegen, die regelmäßig mit Daten befüllt werden.
Open Source als Alternative
Losgelöst vom jeweiligen Produkt lässt sich feststellen, dass sich durch das Angebot von Open-Source-Software im BI-Umfeld mehrere ernsthafte Alternativen zu etablierten Anbietern entwickelt haben. Das gilt insbesondere für mittelständische Unternehmen und die öffentliche Hand. Hier waren hohe Lizenzkosten beziehungsweise hohe Anforderungen an die Anpassbarkeit bislang häufige Hinderungsgründe für die Einführung einer BI-Softwarelösung.
Jedox Palo unterscheidet sich in Ansatz und Technologie deutlich von den beiden anderen betrachteten Lösungen. Es handelt sich um eine technologisch sehr moderne Software, die mit der Excel-Integration vor allem bei Anwendern im Fachbereich auf Interesse stoßen dürfte. Berücksichtigt man noch Funktionen zur Realisierung von Planungsapplikationen, erhält man mit Palo ein sehr gutes Controlling-Werkzeug.
Steht im Mittelpunkt des Projekts der Aufbau eines Standardreportings mit einer Vielzahl von Berichten, findet man in Pentaho und Jaspersoft hingegen sehr gute Lösungen. Beide unterscheiden sich in funktioneller Hinsicht kaum und verfolgen einen ähnlichen Ansatz: Sie wollen eine BI-Plattform bieten, die von der Datenintegration über Reporting und Analyse das vollständige BI-Funktionsspektrum abdeckt. Bei aller Ähnlichkeit ist jedoch bei Pentaho die Integration der verschiedenen Module etwas besser gelungen, während Jaspersoft im Bereich Dashboards Stärken hat.
Den Gedanken von Offenheit und Integration, der Open Source im Allgemeinen und den betrachteten Lösungen im Speziellen zugrunde liegt, kann man noch weiter spinnen: Ein Best-of-Breed-Ansatz, der die Lösungen integriert und ihre jeweiligen Stärken zum Vorschein bringt. Ein Unternehmen könnte so seine Planung mit Palo durchführen, während Berichtswesen und die Dashboards auf Pentaho oder JasperSoft basieren. Durch den Open Source-Faktor und die Modularität der Lösungen lässt sich diese Idee durchaus zu vertretbaren Kosten
realisieren.
Sehr geehrte Frau Ilkem Güclü, sehr geehrter Herr Stefan Müller,
vielen Dank für diesen interessanten Artikel zum Thema Open Source Business Intelligence. Dieser Artikel gibt einen guten ersten Überblick zum Thema. Als vierten Open Source Business Intelligence Anbieter hatte ich gerne die Rapid-I GmbH ( http://www.rapid-i,com/ ) aus Deutschland mit Ihren Open Source Lösungen RapidMiner und RapidAnalytics im Vergleich gesehen. Mit diesen Lösungen lassen sich ebenfalls alle Schritte eines BI-Prozesses von der Datenintegration (ETL) über die Analyse und das Data Mining bis zum Reporting abdecken. Diese Lösungen werden bereits von vielen Unternehmen in über 60 Ländern weltweit eingesetzt:
http://rapid-i.com/content/view/8/56/
Mit freundlichen Grüßen
Frank Xavier
Hallo,
ich schreibe gerade DA über die Verwendbarkeit von palo, jasper und Pentaho in Bereich Patentanalyse.
kann mir jemand vllt hilfen?
die ausgewählte kriterien sind:
1 Tabellarisierung
2 einfache Diagramme
3 Matrizen
4 Reporting
5 Analytische Auswertung
6 Textminung
7 Dashboard
Vielen Dank
Hallo Bachari,
da weder Jasper noch Palo Text Mining anbieten, ergänze ich Deine Liste noch die Open-Source-Lösung RapidMiner ( http://www.RapidMiner.com/ ). Hier ist die entsprechende Übersicht:
1) Tabellarisierung: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.
2) Einfache Diagramme: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.
3) Matrizen: Was genau ist hier gemeint?
Matrix-Diagramme: RapidMiner: ja; alle anderen: vermutlich auch.
Verarbeitung von Daten in Matrix-Form: RapidMiner: ja; alle anderen vermutlich auch.
4) Reporting: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.
5) Analytische Auswertung:
(a) einfache Analyse: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.
(b) Data Mining und Predictive Analytics: Pentaho und RapidMiner: ja; Palo und Jasper: nein.
6) Text Mining: Pentaho und RapidMiner: ja; Palo und Jasper: nein.
7) Dashboards: Können alle genannten Tools: Jasper, Palo, Pentaho, RapidMiner.
Man kann die Lösungen auch in Kombination einsetzen, z.B. JasperSoft für OLAP, Dashboards und Reporting und RapidMiner für Data Mining, Text Mining und Predictive Analytics.
Viel Spaß mit den genannten Open Source Business Intelligence Lösungen,
Frank
Hallo Frank,
Vielen dank, dass du Zeit genommen und mir geholfen hast.
wie sieht bei ETL aus?
ich muss noch die kriterien von Patentanalyse untersuchen, ob die drei Tools (palo, jasper , pentaho)
für patentanalyse eignen.
zum Bespiel für Patentportfolio, Produktfamilien, clusteranalyse und text mining im zusammenhang mit der Patentanalyse.
Ziel der Arbeit ist eigentlich : Verwendbarkeit von palo, jasper, pentaho für Patentanalysen einzuschätzen und eventuelle Anpassungs- und Ent-wicklungsvorgänge zu definieren
Herzlichen dank nochmal.
Adil Bachari
Hallo Adil Bachari,
hier ist die Fortsetzung der Vergleichsliste:
8) ETL: Jasper (JasperETL = Talend): ja. Pentaho (Kettle): ja. RapidMiner: ja.
Palo: ?
9) Patentportfolio: Was genau ist die technische Anforderung?
Bewertung von Portfolio-Positionen, Potentialen oder Risiken mit Data Mining, Text Mining
und Predictive Analytics: Pentaho (Weka) und RapidMiner: ja. Jasper und Palo: nein.
10) Produktfamilien, Clusteranalyse, Text Clustering, automatische Text Kategorisierung:
Pentaho (Weka) und RapidMiner: ja. Jasper und Palo: nein.
Wenn es wirkliche um text-/inhaltsbezogene Analyse und Clustering von Patenten geht, sind Jasper und Palo nicht dafür ausgelegt, allenfalls in Kombination mit einer Lösung wie RapidMiner.
Mit RapidMiner und Pentaho (inkl. Weka) ließen sich die beschriebenen Aufgaben aber lösen. Gerade im Bereich Text Mining halte ich RapidMiner dabei für deutlich leistungsstärker und flexibler einsetzbar als Weka/Pentaho.
Alle Angaben spiegeln natürlich nur meinen individuellen Wissenstand und meine Meinung wieder und sind ohne Gewähr. Nichts desto trotz hoffe ich, dass sie hilfreich sind.
Viele Grüße
Ralf
Hallo Ralf,
vielen Dank für deine Hilfe.
Patentportfolio dient eigentlich zur Auswertung und Aufzeigen von Ergebnissen.
was muss eigentlich vebessert werden damit diese Tools für Patentanaylse eignen?
die Methoden von Patentanalyse wie oben geschrieben: Clusteranalyse, Portfolioanalyse, Produktfamlien und Textmining…
Ich wäre für alle Vorschläge sehr Dankbar.
Viele Grüße
Adil Bachari
Der Link zur Studie ist leider falsch. hier der richtige Link