Oftmals werden die Begriff ETL, ELT und DWH durcheinander geworfen. Was alle drei jedoch gemeinsam haben; sie beschreiben Bestandteile von moderner Datenintegration und -migration in Unternehmen mit Big-Data-Value. Bei solchen Betrieben handelt es sich also um herausgeforderte Datenbanken und deren Schnittstellen, die möglichst effizient große Mengen an Daten bereitstellen oder annehmen müssen.
Um also Sperrzeiten für den Abruf der Daten zu verringern, wird das sogenannte ETL eingesetzt. Das Akronym setzt sich aus den englischen Begriffen Extract, Transform und Load (zu Deutsch Extraktion, Transformation, Laden) zusammen. Diese drei Hauptfunktionen gliedern sich nun der Reihenfolge nach beispielsweise in die Prozesse des Data Warehouse (DWH) ein.
Werden große Datenmengen verarbeitet, beispielsweise aus und für Datenbanken oder von einem ERP-System, helfen ETL-Prozesse bei einer strukturierten und effizienten Bewältigung. Je nachdem wie groß der Aufwand ist, und in welcher Form die Daten genutzt werden sollen, unterscheidet sich der Vorgang in ETL und ELT.
Im ersten Schritt, auch „Stage“ genannt, werden alle Quelldaten gefiltert. An dieser Stelle werden die Informationen nicht nur aus verschiedenen Dokument oder einer Datenbank gesiebt, sondern auch für den Lade- oder Transformationsprozess zusammengefasst. Die Informationsqualität unterscheidet sich zunächst stark untereinander, wenn die operativen Systeme, welche die Daten erzeugen, abweichende Datenstrukturen verfassen.
Abweichende Strukturen sollen normalisiert werden. Über den Transformationsprozess lassen sich die Daten bereinigen und gruppieren, sodass nur der erforderliche oder relevanteste Datenbestand ausgegeben wird. Deshalb bezeichnet sich diese Funktion auch als „Cleansing“.
Nun werden die Daten abschließend vom „Stage“ in das Data Warehouse System oder in einen Operational Data Storage (ODS) geladen. Auch wenn Sperrzeiten unbeliebt sind, erfüllen sie für den ETL-Prozess eine wichtige Funktion. Sie sollen nämlich den Zugriff auf das DWH oder den ODS verhindern, damit keine Auswertungen während des Ladens erfolgen. Die Aktualität der Daten ist beispielsweise essentiell, wenn die Daten, anstatt an ein Repositorium, direkt an ein operatives System, wie ein BI- (Business Intelligence) oder ein OLAP-System, zurückgegeben werden.
Nimmt der Datenumfang während des ETL-Prozesses zu und sollen aktuelle Daten flexibel abgerufen werden können, zum Beispiel für individuelle Reportings oder für eine Übersicht der aus dem ERP erhobenen Leistungsparameter, lohnt sich die Umstellung zu einem ELT-Prozess. Wie auch die Buchstaben des Akronyms vertauschen sich nun die Teilfunktionen Loading und Transformation der Reihenfolge nach.
Damit ETL Datenbanken unterstützen kann, müssen einige Kriterien innerhalb der Software und im Unternehmen erfüllt sein. Nicht jedes ETL-Tool ist mit der internen Datenarchitektur oder den operativen Systemen kompatibel. Bevor also individuelle Anforderungen in einer Bedarfsanalyse ermittelt werden, sollten zunächst die wichtigsten Funktionen eines guten ETL-Tools bekannt sein. Darunter fassen sich
Wie zu Beginn erwähnt sind ETL-Prozesse in den Bereichen Big-Data oder Business Intelligence eine bedeutende Stütze. Unternehmen, die ETL-Strecken einsetzen, um ihre Daten zu organisieren, lassen sich in den unterschiedlichsten Branchen finden. Die Daten entspringen daher verschiedenen Quellen mit individuellen Herausforderungen für die Datenlager.