-manchmal kompliziert, aber praktisch

« Zurück zur Startseite

Der ETL Prozess ist hilfreich bei der Verarbeitung großer Datenmengen

posted am

ETL ist die Abkürzung für einen Prozess, bei dem Daten aus verschiedenen Quellen in einer Datenbank integriert werden. Diese Abfolge besteht aus mehreren Einzelschritten und hat zum Ziel, diese Daten für weitere Verarbeitungsprozesse bereitzustellen. Die Buchstaben stehen dabei für die englischen Wörter Extract, Transform und Load (Extrahieren, Transformieren und Laden).

Was passiert bei der Anwendung?
Daten müssen mitunter bei bestimmten Aufgaben aus unterschiedlichen Systemen zusammengeführt werden. Wenn man hierbei gewaltige Datenmengen verarbeiten muss, profitiert man von dem ETL Prozess.

Bei solchen Anwendungen im sogenannten Big-Data Bereich geht es um besonders große Mengen. Dann ist es wichtig, dass diese einzelnen Prozessschritte mit einer hohen Geschwindigkeit ablaufen.

Die Hauptphasen
Ein ETL Prozess unterteilt sich in drei verschiedene Phasen. 


Extraktion
Es ist der erste Prozessschritt. Hier wählt man die benötigten Daten aus. Das passiert in den unterschiedlichen Quellsystemen. Danach bereitet man sie für eine Transformationsphase vor. Meistens werden nur einzelne Bereiche aus den Datenbankquellen extrahiert. Das ist abhängig von der Anwendung.

Regelmäßige Extraktionsvorgänge sind nötig, um das sogenannte Data Warehouse permanent mit aktuellen Daten auf den neuesten Stand zu halten. Man kann sowohl ereignisgesteuert als auch anfragegesteuert Daten herausziehen.

Transformation
Anschließend kommt die Phase der Transformierung. Hier werden die Daten in Form und Schema der Zieldatenbank entsprechend angepasst. Diese Transformation besteht aus mehreren verschiedenen Einzelschritten. Man kann z. B. Die grundlegenden Kriterien einer Formatierung festlegen und fehlerhafte Daten bereinigen. Informationen oder Daten auf Duplikate untersuchen und ggf. löschen. Zum Schluss erfolgt das Anpassen an die Zielformate.

Laden
Bei diesem letzten Bearbeitungsschritt werden die vorher überprüften und verbesserten Daten geladen. Das ist der Schritt, durch den die Informationen eigentlich erst in die Zieldatenbank / Data Warehouse integriert werden. In diesem Arbeitsgang werden die geladenen Daten physisch zu ihrem Ziel verschoben. Die Datenbank beim Laden aber nicht lange blockiert. Die Unversehrtheit dieser Daten ist sicherzustellen. Sämtliche Veränderungen des Zielsystems sind exakt zu protokollieren. Dadurch besteht die Möglichkeit, dass man ältere Datenbestände und Formatierungen wieder herstellen kann.

Die erforderlichen Charakteristika eines Tools
Damit diese drei Phasen überhaupt vereinfacht werden können, müssen die ETL-Tools wie von der A-SD GmbH bestimmte Eigenschaften / Funktionen aufweisen. Sie sollten zu den unterschiedlichen Datenbanksystemen ausreichend viele Schnittstellen haben. Mit diversen Cloud-Modellen kompatibel sein und hybride Cloud-Architekturen unterstützen.

Die einzelnen Benutzeroberflächen müssen bedienungs- und benutzerfreundlich konzipiert werden. Es sollte möglich sein, die unterschiedlichen ETL-Arbeitsschritte zu visualisieren und konstant großer Datenmengen verarbeiten können.

ETL Einsatzbereiche
Sie befinden sich immer da, wo große Datenmengen bereitgestellt und verarbeitet werden müssen, beispielsweise in einem Data Warehouse zur Datenspeicherung oder bei BI-Anwendungen zur Datenbereitstellung oder der Verschiebung von Daten zwischen verschiedenen Anwendungen. Wie oben bereits erwähnt kann dies auch bei der Datenextraktion aus unterschiedlichen Datenbanken, teils cloudbasierten, der Fall sein.


Teilen