Wirtschaftsinformatik

Agilität durch Data Lakes.

Data Lakes helfen, die rasant wachsenden Mengen unstrukturierter Daten aus externen Quellen zu integrieren – schnell und in originaler Form. Die Technologie macht Organisationen aus allen Branchen agiler.

Vor zwei Jahren prognostizierte der renommierte Wirtschaftsinformatiker Professor Peter Gluchowski von der TU Chemnitz in einem Interview die Ablösung der klassischen Data Warehouses durch die Data Lake-Technologie (BUSINESS INTELLIGENCE MAGAZINE Nr. 3/2018). Heute schalten immer mehr Unternehmen auf das neue Verfahren um: Denn ein Data Lake übernimmt die Daten in ihrer originalen, unbearbeiteten Form direkt aus den Informationsquellen. 

Anders als im klassischen Datenmanagement werden die Daten nicht oder kaum bereinigt, standardisiert und neu modelliert. Daraus resultiert laut Gluchowski der Vorteil größerer Flexibilität, denn die Unternehmen könnten die externen Inhalte, wie etwa Marktzahlen, «on the Fly» transformieren und im Rahmen von Ad-hoc-Analysen oder «als Zwischenschritt für wiederkehrende Standardaufgaben, etwa im Berichtswesen» einsetzen.  

Hinzu kommt, dass – nach Ansicht der Experten des IT-Dienstleisters Trivadis – erprobte Vorgehensweisen in der Planung und Entwicklung von Data Lake-Architekturen helfen, mit überschaubarem Aufwand eine Plattform aufzubauen, die sukzessive weiterentwickelt werden kann. 

Industrialisierter Ansatz.
Laut Trivadis können Data Lakes mithilfe von Automatisierungswerkzeugen industrialisiert werden, sodass Kosten und Aufwände auf ein Minimum sinken. Denn die Technologie ermöglicht die effiziente Verwaltung großer, unstrukturierter Datenmengen und gleichzeitig die Ableitung neuer Informationen auch bisher unbearbeiteter Daten. Damit geht die Leistungsfähigkeit dieser Architektur weit über das hinaus, was heute schon oft als Business Intelligence-Lösung auf der Basis eines Data Warehouses vorhanden ist. 

Analytische Aufgaben. 
Anders als bei einem traditionellen Data Warehouse, das die Daten zwar anwendergerecht, aber nur eingeschränkt verfügbar macht, stehen im Data Lake sämtliche Daten und damit vollständige Informationen zur Verfügung. Damit sind aussagekräftigere und tiefer gehende Analysen möglich – zum Beispiel auf der Basis von Simulationen. Zudem geht ein guter Data Lake mit einer FastData-Komponente einher, mit deren Hilfe die Datenströme in Echtzeit ausgewertet werden können.

Kundendienst und Qualitätskontrolle.
Data Lakes bieten sich daher überall dort an, wo sehr vielfältige Datenmassen, beispielsweise von Sensoren, anfallen und schnell verarbeitet werden müssen.

In der Kundenbetreuung ist heute eine topaktuelle 360-Grad-Betreuung erforderlich. Nahezu in Realtime müssen im Service Antworten auf Fragen verfügbar sein wie etwa: Welche Bestellung wurde vor wenigen Minuten aufgegeben? Wie zufrieden war der Kunde mit der Bestellung? Welche Webseiten hat er vor und nach seinem Besuch aufgerufen? Welche Spuren hinterlässt er auf unserer Internetseite?

Auch die Qualitätskontrolle erfordert oftmals den Blick in die nähere und weitere Vergangenheit mittels Big Data-Analytics. Wenn die Ausfallrate steigt, dadurch die Kosten in die Höhe getrieben werden und das Vertrauen der Kunden beeinträchtigt wird, braucht es viele Daten, um das Problem zu identifizieren und zu lösen. Dazu kann auch die Auswertung schon jahrealter Daten gehören wie etwa Produktionsparameter, Chargen oder Testresultate, aber auch Telemetrie, Rückläufer und Fehlerbeschreibungen. Auf der anderen Seite  lassen sich mittels Predictive Analytics drohende Ausfälle und künftig möglicherweise aufkommende Qualitätsprobleme treffender vorhersagen. 

Data Lake als Selfservice.
Dies alles lässt sich nach Meinung der Trivadis-Fachleute leichter auf dem Wege einer Selfservice-Analytics realisieren: Die Kosten werden gesenkt und der Nutzen erhöht, wenn sich sowohl Intensivnutzer als auch Data Scientists ihre Datenbasis und die darauf aufbauenden Auswertungen schnell und einfach aus einem Data Lake selbst zusammenstellen können. 

Dafür bedarf es einer gut geplanten und automatisierten Analytics-Plattform mit einem «Governed Data Lake» und der geeigneten Werkzeuge, die viel Flexibilität bieten. Am besten ist den Erfahrungen nach ein Data Lake in der Cloud angesiedelt – natürlich auch in Kombination mit einem Data Lab. Denn analytische Datenplattformen sind dafür prädestiniert. 

Diese Verbindung ist so attraktiv, weil fast ohne Vorlaufzeit eine Umgebung aufgebaut und die enorme Elastizität der Ressourcen (also die Fähigkeit einer kurzfristig hundert- oder tausendmal höheren Rechenleistung für bestimmte Aufgaben oder Zeiten) genutzt werden kann. Gängige Lösungen etwa von Microsoft, Oracle, Amazon oder Google beinhalten leistungsfähige Werkzeuge und Dienste für alle Aufgaben. Die eigene IT-Abteilung muss die notwendigen Mittel und Fachkräfte nicht selbst dauerhaft vorhalten.

Mit einem geeigneten Data Governance-Ansatz zu Datenverwaltung und Ownership sowie fortgeschrittenen Metadaten-Lösungen und analytischen Methoden finden die Mitarbeiter eines Unternehmens jederzeit die gewünschten Informationen und können sie  richtig interpretieren. Die Produktivität steigt, wenn eine einfache Suche alle passenden Berichte, Datenquellen, Datenbeschreibungen und Prozesse sauber auflistet und gleich noch den direkten Zugriff darauf bietet. 

Semantic Web-Verfahren.
Noch produktiver wird es, wenn die Informationen über Daten nicht erst mühevoll manuell zusammengetragen und aufbereiten werden müssen, sondern wenn das die Softwarelösung selbst macht – und darüber hinaus passende Querverbindungen entdeckt und vorschlägt. Solche Lösungen realisiert zum Beispiel Trivadis auch mit Technologien der Künstlichen Intelligenz wie Natural Language Processing oder Semantic Web-Verfahren.

 

Quelle: BUSINESS INTELLIGENCE MAGAZINE, www.bi-magazine.net

© ProfilePublishing Germany GmbH 2020. Alle Rechte vorbehalten. 

Vervielfältigung nur mit Genehmigung der ProfilePublishing Germany GmbH

Business Intelligence Magazine: Springe zum Start der Seite