Was ist ein Data Warehouse und wer nutzt es?
Bei einem Data Warehouse, der deutsche Begriff Datenlager erklärt die Funktion recht präzise, handelt es sich um ein technisches Verwaltungsinstrument. Daten verschiedener Quellen, besonders durch die internen operativen Systeme (z.B. ERP- oder CRM-Software), werden in diesem System aggregiert und für den Bedarfsfall aufbereitet.
Ein solcher Fall liegt vor, wenn auf Managementebene eine Entscheidung mithilfe von historischen bzw. statistischen Leistungswerten getroffen werden muss. Auch Controlling und Marketing stützen sich für Reportings & Prognosen auf eine organisierte Datenqualität. Diese Grundlagen lassen sich in einem Enterprise Data Warehouse System global für alle Geschäftsbereiche verfügbar machen.
Das Ziel der Data Warehouse Technologie
Neben der organisierten und transparenten Lagerung der Daten, soll ein DWH vor allem bereinigte Informationen bereitstellen. Aus den operativen Systemen, besonders wenn Software von unterschiedlichen Anbietern genutzt wird, gelangen viele verschiedene Datenstrukturen über Schnittstellen in das Datenlager. Wichtig ist also eine einheitlich verständige Datengrundlage für fehlerfreie Abfragen im DWH.
Controller und Management müssen sich bei kritischen Entscheidungen auf diese saubere Grundlage verlassen können. Sind Datenquellen einander falsch zugeordnet oder führen inkompatible Strukturen zu fehlerhaften Ausgaben, ergeben sich Analysen, die womöglich zu mehr Schaden führen als ohne Data Warehouse. Damit ein DWH die Effizienz von Geschäftsabläufen unterstützt, müssen vorangestellte Prozesse für eine bereinigte Aggregierung der Daten sorgen.
Verarbeitungsschritte im DWH
Bevor Daten über eine Normalisierung vereinheitlicht und redundante Daten ausgeschlossen werden, beginnt der ETL Prozess mit der Extraktion aus den Quellsystemen. Die Abfrage von Daten erfordert ebenfalls ein entsprechendes Tool, mit dem zielgenau Strukturen gefiltert werden.
So kommen Informationen in die Datenbank
Das Akronym ETL setzt sich aus der englischen Beschreibung der Funktion zusammen. Extract Transform Load soll demnach Daten selektieren, sie einem Standard angleichen und in das Speichersystem einspeisen. Die Herausforderung in diesem Bereich gilt nun auch der richtigen Verknüpfung von ETL-Tool und Data Warehouse. Denn das Verständnis von ETL muss erst über die richtigen Parameter für den geschäftstypischen Datenstandard sensibilisiert werden.
Darüber erfolgt der Datenzugriff
Um auf die Daten zuzugreifen, wird ein Data Access Tool benötigt. Dies kann beispielsweise auch eine Schnittstelle eines operativen Systems darstellen. Sogenannte DSS (Decision Support Systems) und Business Intelligence benötigen für eine Auswertung eine besondere Aufbereitung. Diese erfolgt entweder in Data Marts oder für OLAP in Form von Data Cubes.
Darunter verstehen sich nach Relevanz und Verwendung selektierte Daten-Cluster, die speziell für ein Thema dem DWH herausgenommen sind. Da nicht der globale Bestand des Datenlagers überprüft werden muss, werden die Abfragen über analytische Systeme stark beschleunigt.
Integrierte Systeme
Zu empfehlen sind an dieser Stelle Komplettinstallationen von Anbietern, welche die Pflege eines Data Warehouse vermindern oder überflüssig machen. Dabei handelt es sich um operative Systeme mit integrierten ETL-Prozessen. Relevante Datenbestände werden automatisch bereinigt und an ein Datenlager übergeben.
Dieser Datenspeicher funktioniert dann global für jede Funktion der Unternehmenssoftware. Jeder Geschäftsbereich stützt sich also auf dieselben Datengrundlagen, sodass Daten gar nicht erst redundant angelegt werden müssen. Die Datenabfrage erfolgt nun auch einfach, da die Strukturen für Abfragen einer integrierten Business Intelligence standardisiert bleiben.
Bedeutung eines Data Warehouse für CRM und ERP
Das Customer-Relationship-Management (CRM) und das Enterprise Ressource Planning (ERP) profitieren von einer wirkungsvollen Konfiguration eines Data Warehouses. Gerade im Big Data Bereich müssen kundenspezifische Daten oder Ressourcenauslastungen präzise überwacht werden.
Jedes Performance Management wird irgendwann zu dem Entschluss kommen, dass gut organisierte Data Warehouses für CRM und ERP einen entscheidenden Nutzen bringen und die Wettbewerbsfähigkeit aufrecht erhalten. Daten müssen jedoch auch richtig interpretiert werden, damit keine fehlerhaften Reportings und Statistiken erstellt werden. Dazu ist es wichtig, Mitarbeiter im Umgang mit dem DWH zu schulen. Erfolgen Abfragen direkt über eine Komplettlösung, übernehmen einige Anbieter diese Schulungen.
Data Warehouse, Data Mart und Data Lake
Manche Unternehmen verzichten aufgrund des Pflegeaufwands auf Data Warehouse Technologie. Sie lösen ihre Datenlagerung nahezu ausschließlich über Data Marts. Verständlich, denn die komprimierten Datenbanken sind kosteneffizient und lassen sich grundsätzlich ohne tiefgehende technische Kenntnisse erstellen.
Harmonie aus DWH und Data Mart
Die prägnanten Data Marts bergen dennoch die Gefahr, Strukturen so zu verdichten, dass wichtige Informationen ausgelassen werden. Nachlässig verwaltet, entstehen durch solche Speichermodelle schnell Datensümpfe, deren Informationen nie wieder Verwendung finden – also undurchsichtige Dead-Ends. Um nachhaltig zu analysieren und um historische Daten miteinander zu verknüpfen, ist der Erhalt der Informationsqualität eines Enterprise DWH von entscheidender Bedeutung.
Durch die Bottom-Up-Methode lässt sich ein Data Warehouse mit Data Marts versorgen. Es ist also nicht zu spät, unabhängige Teilstrukturen zusammenzuführen. Die Analyse jedoch nur auf ein globales System zu beschränken ist dennoch nicht zu empfehlen. Es sollte eine gesunde Lastenverteilung zwischen Data Warehouse und Data Mart erfolgen.
Der Data Lake als Ergänzung
Data Lakes sehen sich als Erweiterung von Data Warehouses an. Ziel einer solchen Technologie ist die Unterstützung analytischer Systeme durch möglichst breit gefächerte, aber relevante Datenbestände (Big Data). Darunter fassen sich ebenfalls externe Informationen, wie Blogs, Forschungsberichte oder sonstige Web-Dokumente. Data Lakes, gegenüber Data Warehouses, bauen auf hohe Speicherkapazitäten.
- Sie sind zudem flexibel in der Annahme und Verarbeitung verschiedener Dateiformate und Analysen können mit dem nötigen Know-How effizient bewältigt werden.
- Der Grund dafür liegt in der Form, wie Daten zuerst gespeichert werden. Wenn ETL für ein Data Warehouse eingesetzt wird, ist ELT die Variante für einen Data Lake.
- Aus der neuen Anordnung des Akronyms wird deutlich, dass sich auch die Reihenfolge der Verarbeitungsschritte geändert hat (Extraktion, Laden, Transformieren).
- Daten werden nun erst in das Datenlager gespeist und dort über spezielle Algorithmen verarbeitet.
- Diese Ausrichtung soll die Sperrzeiten, in denen keine Analysen stattfinden könnten, deutlich verringern. Aufgrund der Komplexität eines Data Lakes sind die Fähigkeiten von Data Scientists ratsam, damit Ausschnitte erstellt werden, die weniger technisch versierte Analysten einsetzen können.