Software

Big Ten.

Welche Technologien können helfen, aus Big Data-Beständen wertvolle Erkenntnisse für die Entwicklung neuer Geschäftsmodelle, Produkte und Strategien zu gewinnen? Zehn Tools sind besonders geeignet.

* Von Stefan Müller

Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entscheidungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einführen, riskieren Wettbewerbsnachteile. Es ist daher wichtig, ein geeignetes Big Data-Konzept für sich zu finden und auf der Basis der individuellen Bedürfnisse die richtigen Technologien einzuführen. Die folgenden zehn Programme sollten die Experten in Unternehmen und Organisationen auf jeden Fall ins Auge fassen:


1. Hadoop: Die bewährte Basistechnik.
Eine zentrale Rolle bei Big Data-Lösungen spielt Hadoop. Das in der Programmsprache Java geschriebene Open Source-Framework der Apache Foundation wird von diversen kommerziellen Anbietern vertrieben. Die verteilt arbeitende Software dient der parallelen Datenverarbeitung auf hoch skalierbaren Server-Clustern. Besonders geeignet ist Hadoop für Auswertungen mit aufwendigen Analysen.


2. Cloudera: Alles aus einer Hand.
Eine beliebte Hadoop-Distribution kommt von Cloudera. Das Angebot umfasst ein breites Portfolio an geprüften Big Data-Anwendungen aus dem Open Source-Bereich, die sich über den «Cloudera Cluster Manager» auf einer Weboberfläche einfach verwalten und installieren lassen. Damit können bewährte Lösungen integriert und neue Big Data-Techniken in bestehende Prozesse implementiert werden.


3. Apache Hive: Ergänzung für Hadoop.
Eine Herausforderung für Unternehmen besteht oft in der Verlagerung ihrer Daten in ein Hadoop-System, weil die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query Language (SQL) gespeichert sind. Unterstützung bietet hier das Data Warehouse-System Apache Hive – eine Open Source-Technologie. Die Hauptfunktionen dieser Programms sind die Datenzusammenfassung, -abfrage und -analyse.  


4. Impala: Für Echtzeitabfragen.
Echtzeitabfragen aus Datenbanken werden im Unternehmensalltag immer wichtiger – und dank fortschreitender Technik auch möglich. Mithilfe der Software Impala, die der Anbieter Cloudera entwickelte, lassen sich solche Anforderungen in Hadoop oder über die Open Source-Datenbank «Apache HBase» erfüllen. Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool für Hadoop bereitzustellen.


5. MongoDB: Datenbank für alle Fälle.
MongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open Source-Bereich. Als Allzweckwerkzeug eignet sich MongoDB bestens für die heutige IT-Landschaft mit ihren großen und teilweise unstrukturierten Informationsmengen. Die Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei ihren Anwendungen.


6. Pentaho: Eine flexible BI-Plattform.
Wenn bewährte Einzellösungen zu einem Ganzen zusammengefasst werden sollen, kann die Integrationsplattform «Pentaho Data Integration» nützen. Entwickler und Analysten können zum Beispiel gemeinsam an der Erstellung neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch für die Visualisierung der Daten verwenden. Die Open Source-Lösung wurde 2015 von Hitachi Data Systems gekauft.  


7. Infobright: Ein Kompressionstool.
Das explosionsartige Informationswachstum beschränkt zunehmend die Flexibilität der etablierten Datenmanagementlösungen. Aus diesem Grund haben sich spaltenbasierte Datenbanken entwickelt. Dazu zählt unter anderem die MySQL-Engine des Anbieters Infobright. Das Open Source-System des kanadisch-polnischen Unternehmens eignet sich für Datenmengen ab 500 Gigabyte. Die Software kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden Knowledge Grid-Architektur.


8. Apache Spark: Echtzeitanalysen.
Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen treffen zu können – zum Beispiel bei der Optimierung von Produkten oder der Entdeckung von Einsparmöglichkeiten. Eine Software, die zu diesem Zweck herangezogen werden kann, ist Apache Spark. Das parallel arbeitende Open Source-Framework wurde an der  University of California in Berkeley entwickelt und ist ein Top Level-Projekt der Apache Foundation. Es ermöglicht die  schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern.

9. Splunk: Big Data vereinfachen.
Das «Splunk Enterprise»-Tool von Splunk Inc. ermöglicht sowohl das Monitoring als auch die Analyse von Clickstream-Daten sowie der Kundentransaktionen, der Netzwerkaktivitäten und der Gesprächsdatensätze. Die Software übernimmt dabei die Integration der unterschiedlichen Daten, sodass sie sinnvoll auswertbar sind. Mithilfe von Splunk können fast alle Arten von Dateien indiziert, verarbeitet und ausgewertet werden.


10. Apache Storm: Fehlertolerante Big Data-Analysen auf Echtzeitbasis.
Die Lösung «Apache Storm» ist ein fehlertolerantes, skalierbares System zur Echtzeitverarbeitung von Datenströmen. Die Technologie stellt eine Komponente des Hadoop-Gesamtsystems dar und arbeitet unabhängig von Programmiersprachen.

 

* Stefan Müller ist Director Business Intelligence & Big Data bei it-novum.

 

Quelle: BUSINESS INTELLIGENCE MAGAZINE, www.bi-magazine.net
© ProfilePublishing Germany GmbH 2016. Alle Rechte vorbehalten.
Vervielfältigung nur mit Genehmigung der ProfilePublishing Germany GmbH

Business Intelligence Magazine: Springe zum Start der Seite