Immer mehr Unternehmen benötigen einen prägnanten Ausschnitt, in dem ganz bestimmte Leistungswerte von Geschäftsabläufen deutlich werden. Eine komplette Abbildung eines Data Warehouses wäre für diesen Zweck zu evident und aufwändig, da eine solche Datenbank alle Unternehmensinformationen führt. Sogenannte Data Marts bieten daher die Grundlage für heuristische Entscheidungen.
Sie fassen sich also in einem begrenzten Informationsgehalt zusammen und berücksichtigen dabei nur die Daten, die wirklich für den entsprechenden Zweck notwendig sind. Sie liefern außerdem Grundlagen für ein DSS (Decision Support System) wie Business Intelligence oder OLAP, das auf übersichtliche Datenstrukturen angewiesen ist.
Ein Data Warehouse System überspannt als Datenbaum alle betrieblichen Prozesse. Er wächst über Monate oder auch Jahre der Entwicklung und dockt mit seinen Wurzeln, dem ODS (Operational Data Storage), einer Art Zwischenspeicher, an den Daten der Quellsysteme an. Da bei themenbezogenen Abfragen nicht der komplette Stamm gefällt werden sollte und es manchmal bereits genügt, ein paar Äste zu sammeln, werden im Data Warehouse abgeschlossene Teilstrukturen, die Data Marts, ausgeformt.
Diese Äste, die Data Marts, werden dann durch oder für eine einzelne Geschäftsabteilung bzw. einen Themenschwerpunkt erstellt. Genau wie das DWH bildet jeder Data Mart ein eigenes Daten-Repositorium, in denen Daten bis zu ihrer Verwendung gelagert werden. Einen Data Mart aufzusetzen ist deutlich kosteneffizienter und erfordert weniger technisches Know-How als bei der Erstellung eines Data Warehouses. Data Marts lassen sich je nach ihrer strukturellen Ausrichtung innerhalb weniger Minuten oder innerhalb von Tagen bereinigt vervollständigen. Für analytische Zwecke ist der Data Mart darum ein äußerst wirkungsvolles Instrument, mit dem sich Geschäftsprozesse beschleunigen lassen.
Alle Unternehmensdaten bleiben hier gelagert. In einem DWH wird nicht zwischen Datenrelevanz oder der Teilevidenz, also einem Datenportfolio, unterschieden. Daher erfolgen Analysen in der Regel nie über Exportfunktionen eines Data Warehouses. Für die Gestaltung eines Data Marts ist zumal nicht unbedingt ein Data Warehouse als Datenquelle erforderlich. In diesem Beitrag werden auch die Unterschiede zwischen von DWH abhängigen Data Marts und unabhängigen Varianten erläutert. Technisch betrachtet verfügt ein Data Warehouse grundsätzlich über mehr als 100 GB nutzbaren Speicher, es betrifft Daten aller Geschäftsprozesse und bedient sich dazu an allen verfügbaren operativen Systemen.
Ein ODS-System ist meistens als operativer Teil eines DWH integriert. Das heißt, dass alle Daten der Quellsysteme, wie ERP System oder CRM System, in diesem Datenbank-Zwischenspeicher gesammelt werden. Diese Daten sind immer umfassend aktuell und bieten daher eine sehr gute Grundlage für die Erstellung von Data Marts. Es müssen also nicht erst historische Daten aus dem DWH abgegrenzt werden, sofern diese für eine themenbezogene Auswertung nicht erforderlich sind.
Für die Entwicklung eines Data Marts aus einem Data Warehouse oder dem ODS bietet sich die sogenannte Top-Down-Methode an. Dabei werden Teilstrukturen aus relevanten Datensätzen aufgegliedert und in die Data-Marts einsortiert. Es ist ebenfalls möglich, verschiedene Data-Marts durch ETL-Prozesse zu einem DWH zusammenzuführen (Bottom-Up). Hybride Data Marts, deren Bestandteile im Folgenden erläutert werden, bestehen zum Beispiel aus Strukturen, die sowohl über Top-Down als auch Bottom-Up entwickelt wurden.
Zur Definition eines Data Marts fügen sich immer auch seine drei unterschiedlichen technischen Entstehungsarten. Je nach Einsatzgebiet haben alle Formen Vor- und Nachteile. Um sich für eine zu entscheiden, sollten zuerst der Verwendungszweck und die Möglichkeiten zur Wiederverwertung des Data Marts bekannt sein.
Da der Data Mart für analytische Zwecke eingesetzt wird, bieten sich für seine Verwendung zwei dominierende Darstellungsformen an.
Zentral wird eine Faktentabelle abgebildet. In diesem Ausschnitt werden also die Primärschlüssel des Data Marts dargestellt. Darunter können beispielsweise grundlegende Daten zu einem Verkaufsprozess fallen. Das sind dann beispielsweise im Kleinsten Primärschlüssel wie die Kunden-ID, die Produkt-ID und die zugehörigen Bestellnummer.
Von der Faktentabelle aus reichen mehrere Arme zu sogenannten Dimensionstabellen, weswegen sich eine sternförmige Struktur bildet. In den Dimensionstabellen werden die Informationen zu den in der Faktentabelle gelisteten Angaben erweitert. Die Dimension der Kunden-ID, in dieser Tabelle nun als Fremdschlüssel bezeichnet, umfasst daher auch den Namen, die Adresse und sonstige Angaben des Käufers. Vorteile des Sternschemas sind beispielsweise:
Es handelt sich um ein erweitertes Sternschema, bei dem jedoch zum einen normalisierte Daten in die Dimensionen eingesetzt werden. Das hat den Vorteil, dass Daten also bereinigt weniger Speicherplatz beanspruchen. Dieses Vorgehen ist sinnvoll, denn Schneeflockenschemata verfügen zum anderen über eine vertiefende Tabellenhierarchie.
Vom ersten Tabellenring um die Faktentabelle entstehen demnach weitere Verzweigungen zwischen den Dimensionen. Dadurch können Datenbestände sehr detailliert und trotzdem übersichtlich bewertet werden. Diese Komplexität ist jedoch auch als Nachteil anzusehen, da sie einem erhöhten Aufwand gegenübersteht.
An eine nachhaltige Integration eines Data Marts knüpfen sich gewisse Anforderungen, die individuell nach Unternehmenslage bewertet werden müssen. Darunter fallen beispielsweise
Auch an die anschließende Verwaltung der Data Marts fügen sich bestimmte Faktoren.
Unabhängig von der Art und Darstellungsform eines Data Marts bilden sich wesentliche Vorteile für verschiedene Geschäftsabläufe aus. Neben der hohen Flexibilität für analytische Prozesse und gegenüber einem ODS kann der Data Mart bei einer Bottom-Up-Methode auch als ausgelagerte Verarbeitungseinheit genutzt werden. Daten werden in diesen kompakten Clustern deutlich schneller verarbeitet und bleiben dann eventuell auch für spätere analytische Zugriffe in einem Data Mart.
Die Datenpflege ist relativ einfach zu halten, da für die Erstellung von Data Marts nicht unbedingt ein tiefes technisches Verständnis erforderlich ist. Verschiedene Abteilungen können Ihre Daten oder die Ihrer operativen Systeme selbst über Data Marts verwalten. Das Setup ist einfach und die Benutzeroberfläche der entsprechenden Software in der regel sehr visuell.
Die Systeme können außerdem als Grundlage dienen, bevor die Daten in ein Data Warehouse zusammengeführt werden. Unternehmen können Data Marts also auch als Testphase für größere Datenbankstrukturen verstehen. Denn die Integration eines DWH sollte gut geplant sein, da Entwicklung und Pflege mit hohen Kosten verbunden ist.
Für Data Marts bieten Cloud-Dienste zukunftsträchtige Unterstützung. Mitarbeiter können sich Datenstrukturen On-Demand, also überall und jederzeit online zusammenstellen. Darum entscheiden sich immer mehr Unternehmen für die dezentrale Rechenleistung. Ein entscheidender Vorteil von solchen Cloud-Services sind außerdem temporäre Datenspeicher.
Um Daten-Friedhöfe, wie sie bei unabhängigen Data Marts entstehen, effektiv zu beseitigen, werden in diesem Fall keine lokalen Ressourcen verschwendet. Die Kosten werden durch den Einsatz von Cloud für Data Mart reduziert, da lediglich die Rechenleistung eingesetzt wird, die der Prozess tatsächlich benötigt.
Um sich dennoch vor Risikoinvestitionen zu schützen, durch die kein wirklicher Mehrwert im Unternehmen ankommt, sollte bei der Entscheidung um das Thema Cloud immer ein Experte kontaktiert werden. Schließlich sind dezentrale Systeme nicht immer von Vorteil, da sie auch Sicherheitsrisiken bergen.