Die besten Lösungen

Cubeware mobile BI

Analyse, Planung, Forecasting, Reporting und Dashboarding aus einem Guss – so lauten das ...  mehr »
11.04.2013, Zürich, Berhard Lauber, Trivadis

Fast Track für Data Warehousing

Immer größere Datenmengen bringen bestehende Data Warehouse-Plattformen an ihre Leistungsgrenzen. Sie erfordern neue technische Strategien, um den Anforderungen gewachsen zu sein.

Nicht nur die technischen Herausforderungen beim Data Warehouse wachsen ständig. Gleichzeitig steigen die Ansprüche der Unternehmen bezüglich der Datenaktualität und der auswertbaren Zeiträume. Nachfolgend werden Strategien aufgezeigt, um für die wachsende
Datenflut gewappnet zu sein.

Laut einem Bericht des Fachverbands TDWI rechnen immerhin 34 Prozent der befragten Unternehmen in den nächsten drei Jahren mit einem Datenvolumen, das größer als
zehn Terabyte ist. Das bringt einige Herausforderungen mit sich: Wenn beim aktuellen Datenvolumen die Nacht heute gerade knapp ausreicht, um alle Daten zu verarbeiten - wie wird es dann sein, wenn sich das Volumen verdoppelt oder verdreifacht?

Hinzu kommt, dass die Fachabteilungen immer mehr Werkzeuge bekommen, um Daten direkt aus dem Data Warehouse (DWH) selbst auszuwerten. Als Beispiele im Microsoft Umfeld seien hier Excel und PowerPivot im Zusammenhang mit „Self-Service BI“ genannt. Dies bedeutet, dass die Anzahl der Anwender sowie die der Abfragen und deren Komplexität neben der Datenmenge ebenfalls zunehmen werden.

Viele DWH-Betreiber stellen deshalb Überlegungen an, ob die vorhandene Plattform ausgebaut werden kann. Sie wägen ab, ob es sinnvoll und an der Zeit ist, einen Technologiesprung zu machen.

Welche Möglichkeiten gibt es, die oben skizzierten Anforderungen abzudecken? Als Basis des Bauplans für ein ausgewogenes System empfehlen wir in unserer Beratungsarbeit «Fast Track». Dies ist die Microsoft Referenzarchitektur, um Software und Hardware für ein Data Warehouse optimal aufeinander abzustimmen – mit Microsoft SQL Server. Auch beinhaltet sie Best Practices für das Layout und die Verwaltung der Daten.

Es ist nicht zwingend notwendig, bei einem «Fast Track»- System die teuersten und besten Komponenten einzusetzen. Besser ist es, Komponenten zu verwenden, die optimal aufeinander
abgestimmt sind. Dies gilt in Bezug auf die Storageund Leistungsanforderungen, die typischerweise bei einem Data Warehouse-Betrieb benötigt werden.

Es lohnt sich also, die Prozessoren und den Arbeitsspeicher, die lokalen Festplatten
und das DAS (Direct Attached Storage) oder das SAN (Storage Area Network) ebenso wie die Datenbank und das Betriebssystem so auszuwählen und zu konfigurieren, dass sie bestmöglich zusammenarbeiten. Auch sollte keine Komponente zu einem Flaschenhals werden. Dies ist etwa
der Fall, wenn der Speicher des Servers zu langsam ist, die Prozessoren dagegen mehr Daten verarbeiten könnten.

Darüber hinaus müssen Unternehmen die Alternative zwischen dem SMP-System (symmetrisches Multiprocessing) und einem MPP-System (massiv parallele Verarbeitung)
beachten: Vereinfacht ausgedrückt läuft ein SMP-System auf einem einzigen Server mit mehreren Prozessoren. Bei MPP (massiv parallele Verarbeitung) hingegen wird die Skalierbarkeit
und die Abfrage-Performance dadurch erreicht, dass mehrere unabhängige Server parallel betrieben werden. Herkömmliche Datenbankserver sind in der Regel als SMP-System ausgelegt. Ein großer Nachteil besteht darin, dass Anwendungen nicht beliebig skaliert werden können und laufende Prozesse sich gegenseitig beeinflussen.

Das «Parallel Data Warehouse» (PDW) ist hingegen ein massiv-parallel verarbeitendes System (MPP). Es besteht aus mehreren, baugleichen Server-Knoten, die alle ihre eigenen Prozessoren, Hauptspeicher, Storage und Netzwerkkarten besitzen. Da die Ressourcen nicht geteilt werden müssen, kann es hervorragend skalieren und läuft um ein Vielfaches schneller als ein herkömmliches SMP-System.

Seit zwei Jahren gibt es diese nützliche Technologie von Microsoft: die Appliance «Parallel Data Warehouse» (PDW). Das Produkt wurde zwischenzeitlich verbessert, und seit dem Frühjahr 2012 ist bereits die Version AU3 (Appliance Update 3) erhältlich. Eine PDW ist auf ein sehr großes Data Warehouse ausgerichtet und lässt sich bis in den Petabyte- Bereich skalieren. Sie besteht aus Hardware, Software und Services und wird betriebsbereit vom Hersteller gestellt. Die
Architektur und die Software liefert Microsoft, die Hardware stammt von HP oder Dell. Es kann durchaus sein, dass in Zukunft weitere Hardware-Hersteller ebenfalls eine PDW
anbieten.

Das System ist grundsätzlich offen. Es kommt ausschließlich Standardhardware zum Einsatz.
Eine PDW besteht grundsätzlich aus zwei «Racks»: Das «Control Rack» enthält alle Komponenten, welche der Administration, Steuerung und Kommunikation mit der PDW dienen. Das «Data Rack» besteht aus baugleichen Serverknoten. Jedem Serverknoten ist ein dedizierter Speicherknoten zugewiesen («shared nothing»). Die Datenbank und ihre Tabellen sind über diese physikalischen Server hinweg verteilt, erscheinen aber in einer Client-Applikation als eine einzige Datenbank mit ihren Tabellen und Objekten.

Die Performance der PDW-Appliance ist nach unserer Erfahrungexzellent und prognostizierbar, auch für feingranulare Daten. Es können Analysen und Auswertungen erstellt werden, die mit einem herkömmlichen System (SMP) aufgrund von Kapazitätsrestriktionen oder Einschränkungen bezüglich der Verarbeitungszeit nicht möglich sind. Der Schlüssel hierfür liegt in der richtigen Verteilung der Daten.

Ein bedeutender Vorteil von PDW ist, dass die Verteilung der Daten von PDW transparent übernommen wird. Zudem ist die Komplexität, die hinter der Verteilung steht, für den
Anwender nicht sichtbar. Mit zwei einfachen, deklarativen Einstellungen kann zwischen replizierten und verteilten Objekten unterschieden werden. Kleine Tabellen (gewöhnlich Dimensionen) werden auf jeden Compute Node repliziert.

Dies bedeutet, dass auf jedem Knoten eine vollständige Kopie der Daten einer Tabelle abgelegt wird. Große Tabellen, es handelt sich meist um Faktentabellen, werden hingegen verteilt. Auf einem Knoten wird hier jeweils nur ein Segment der Daten gespeichert. Von außen betrachtet erscheint die Appliance wie ein einzelner Datenbank-Server. Es spielt keine Rolle, wie die Daten physikalisch auf den einzelnen Knoten verteilt sind. Der Entwickler der Client-Applikation muss sich mit diesen Details nicht beschäftigen. Die PDW übernimmt die Auflösung und das Management, welcher Teil der Abfrage auf welchen Knoten zur Ausführung geschickt wird. Diese Transparenz gibt es auch für die Entwickler des Datenbankdesigns.

Fazit: Wenn das Data Warehouse im Unternehmen an seine Grenzen stößt, gibt es grundsätzlich zwei Zukunftsstrategien. Bei kleineren Einheiten kann die Lösung darin liegen, alle Komponenten eines SMP-Systems optimal aufeinander abzustimmen. Für sehr große, skalierbare Systeme im Terabyte- Bereich sind massiv parallele Systeme (MPP) ideal. Bei Systemen dieser Größe sprechen Experten auch von einem «Enterprise Data Warehouse». Als Lösungsbeispiele seien hier Oracle Exadata, Teradata Data Warehouse Appliance, IBM Netezza oder Microsoft Parallel Data Warehouse genannt. Die angebotenen Systeme der genannten Hersteller sind ausgereift. Somit ist es durchaus sinnvoll, jetzt in neue Technologie zu investieren.

Quelle: BUSINESS INTELLIGENCE MAGAZINE, www.bi-magazine.net © ProfilePublishing Germany GmbH 2012-2013. Alle Rechte vorbehalten. Vervielfältigung nur mit Genehmigung der ProfilePublishing Germany GmbH.