ETL
Was das ist und warum man das wissen sollte.
ETL ist eine Art der Datenintegration in drei Schritten (Extrahieren, Transformieren, Laden), die zur Zusammenführung von Daten aus verschiedenen Quellen verwendet wird. Sie wird häufig zum Aufbau eines Data Warehouse genutzt. Bei diesem Prozess werden Daten aus einem Quellsystem entnommen (extrahiert), in ein analysierbares Format umgewandelt (transformiert) und in einem Data Warehouse oder einem anderen System gespeichert (geladen). Extrahieren, Laden, Transformieren (ELT) ist ein alternativer, aber ähnlicher Ansatz, bei dem die Verarbeitung für eine höhere Leistung in die Datenbank verlagert wird.
Die Geschichte von ETL
ETL gewann in den 1970er-Jahren an Beliebtheit, als Unternehmen damit begannen, mehrere Datenspeicher oder Datenbanken zu verwenden, um verschiedenste Arten von Business-Informationen zu speichern. Der Bedarf an der Integration von Daten, die über diese Datenbanken verteilt waren, nahm schnell zu. ETL wurde zur Standardmethode bei der Datenübernahme aus unterschiedlichsten Quellen und deren Umwandlung, bevor sie in eine Zielquelle oder einen Zielort hochgeladen wurden.
In den späten 1980er und frühen 1990er Jahren kamen die ersten Data Warehouses auf den Markt. Data Warehouses stellen eine besondere Art von Datenbanken dar, die einen integrierten Zugang zu Daten aus verschiedenen Systemen wie Mainframe-Computern, Minicomputern, Personalcomputern und Tabellenkalkulationen ermöglichen. Jedoch haben sich einzelne Abteilungen häufig für unterschiedliche ETL-Tools für verschiedene Data Warehouses entschieden. In Folge von Fusionen und Übernahmen verfügten viele Unternehmen über mehrere verschiedene, nicht integrierte ETL-Lösungen.
Im Laufe der Zeit ist die Vielfalt der Datenformate, -quellen und -systeme enorm angestiegen. "Extrahieren, Transformieren, Laden" ist heute nur noch eine von vielen Methoden, mit denen Unternehmen Daten erfassen, importieren und verarbeiten. ETL und ELT sind wichtige Bausteine einer umfassenden Datenintegrationsstrategie in Unternehmen.
Warum ist ETL wichtig
Unternehmen vertrauen seit vielen Jahren auf den ETL-Prozess, um so einen konsolidierten Überblick über die Daten zu erhalten und die Entscheidungsfindung erleichtert. Diese Methode zur Integration von Daten aus verschiedenen Systemen und Quellen ist auch heute noch eine Schlüsselkomponente der Datenintegrations-Toolbox eines Unternehmens.
ETL wird verwendet, um Daten aus vielen verschiedenen Quellen zu verschieben und umzuwandeln und sie in verschiedene Ziele (wie Hadoop) zu laden.
- In Verbindung mit einem Enterprise Data Warehouse (Data at Rest) bietet ETL dem Unternehmen einen umfassenden Überblick über Verlaufsdaten.
- Durch die Bereitstellung einer konsolidierten Ansicht erleichtert ETL den Anwendern die Analyse und Berichterstattung über die für ihre geschäftlichen Vorhaben relevanten Daten.
- ETL kann die Produktivität von Datenspezialisten verbessern, da es Prozesse, die Daten umwandeln, kodiert und wiederverwendet, ohne dass technische Kenntnisse zum Schreiben von Code oder Skripts erforderlich sind.
- ETL wurde im Laufe der Zeit weiterentwickelt, um neu entstandene Integrationsanforderungen beispielsweise für Datenströme zu unterstützen.
- Unternehmen benötigen sowohl ETL als auch ELT, um Daten zusammenzuführen, genaue Angaben zu erhalten und die für Data Warehousing, Reporting und Analytics üblicherweise erforderlichen Audits durchzuführen.
ETL heute
Schnelllebige Daten von heute (Streaming-Daten) können mit Streaming Analytics spontan in Echtzeit erfasst und analysiert werden. Dieser Ansatz ermöglicht ein sofortiges Handeln, je nachdem, was gerade passiert. Aber die durch ETL ermöglichte historische Übersicht, stellt Daten im Kontext dar. Im Gegenzug erhalten Unternehmen im Laufe der Zeit ein umfangreiches Verständnis für ihr Business. Die beiden Ansätze müssen miteinander verknüpft werden.
The most successful organizations will have a clear and precise strategy in place that recognizes data integration as a fundamental cornerstone of their competitive differentiation.
–David Loshin, President von Knowledge Integrity Inc. The New Data Integration Landscape: Moving Beyond Ad Hoc ETL to an Enterprise Data Integration Strategy
Data Integration von SAS
Die Datenintegrationssoftware von SAS verteilt Integrationsaufgaben über jede beliebige Plattform und stellt eine virtuelle Verbindung zu jedem Quell- oder Zieldatenspeicher her.
Verwendungsmöglichkeiten von ETL
Die gängigen ETL- und ELT-Tools arbeiten mit anderen Datenintegrations-Tools und mit verschiedenen anderen Bereichen des Datenmanagements zusammen, wie Datenqualität, Data Governance, Virtualisierung und Metadaten. Zu den beliebtesten Anwendungen gehören heute:
ETL und seine typischen Anwendungsmöglichkeiten
ETL ist eine bewährte Methode, auf die sich viele Unternehmen tagtäglich verlassen, wie z. B. der Einzelhandel, der regelmäßig auf Verkaufsdaten zugreifen muss oder Krankenkassen, die eine genaue Darstellung von Leistungsansprüchen benötigen. Beim ETL-Prozess können Transaktionsdaten aus einem Warehouse oder einem anderen Datenspeicher kombiniert und aufbereitet werden, sodass sie für Unternehmer in einem für sie nachvollziehbarem Format angezeigt werden. ETL wird auch zur Migration von Daten aus Altsystemen in moderne Systeme mit anderen Datenformaten verwendet. Häufig wird ETL zur Konsolidierung von Daten aus Unternehmensfusionen und zur Erfassung und Zusammenführung von Daten externer Lieferanten oder Partner verwendet.
ETL mit Big Data – Transformationen und Adapter
Der Gewinner ist der mit den meisten Daten. Das stimmt zwar nur bedingt, aber der einfache Zugang zu einem umfangreichen Datenangebot kann Unternehmen einen Wettbewerbsvorteil verschaffen. Heutzutage benötigen Unternehmen Zugang zu allen Arten von Big Data: Videos, sozialen Medien, dem Internet of Things (IoT), Serverprotokolle, räumliche Daten, offene oder Crowdsourced-Daten und vieles mehr. ETL-Anbieter fügen ihren Tools häufig neue Transformationen hinzu, um diese neuen Anforderungen und Datenquellen zu unterstützen. Adapter ermöglichen den Zugriff auf zahlreiche Datenquellen, außerdem interagieren Datenintegrationstools mit diesen Adaptern, um Daten effizient zu extrahieren und zu laden.
ETL für Hadoop – und andere Anwendungenr
ETL hat sich weiterentwickelt und unterstützt nun die Integration von weit mehr als nur traditionellen Data Warehouses. Moderne ETL-Tools sind in der Lage, strukturierte und unstrukturierte Daten in Hadoop zu laden und zu konvertieren. Diese Tools lesen und schreiben mehrere Dateien parallel von und nach Hadoop und vereinfachen so die Zusammenführung von Daten durch einen gemeinsamen Transformationsprozess. Einige Lösungen enthalten Bibliotheken mit vorgefertigten ETL-Transformationen sowohl für Transaktions- als auch für Interaktionsdaten, die auf Hadoop laufen. ETL unterstützt auch die Integration von Transaktionssystemen, Betriebsdatenspeichern, BI-Plattformen, Master Data Management (MDM) Hubs und der Cloud.
ETL und Self-Service-Datenzugriff
Self-Service-Datenvorbereitung ist ein schnell wachsender Trend, der den Datenzugriff, -Zusammenführung und -Umwandlung in die Hände von Business-Anwendern und anderen nichttechnischen Datenexperten legt. Dieser Ad-hoc-Ansatz erhöht die Flexibilität und befreit die IT-Abteilung von der aufwendigen Aufgabe, Daten in verschiedenen Formaten für die Endanwender bereitzustellen. Dadurch wird weniger Zeit für die Datenvorbereitung und mehr Zeit für die Gewinnung wichtiger Informationen aufgewendet. Folglich können sowohl Geschäfts- als auch IT-Datenexperten ihre Produktivität steigern und Unternehmen können die Daten besser nutzen, um optimale Entscheidungen zu treffen.
ETL und Datenqualität
ETL- und andere Software-Tools zur Datenintegration, die zur Bereinigung, zum Profiling und beim Auditing eingesetzt werden, sorgen dafür, dass die Daten zuverlässig sind. ETL-Tools lassen sich mit Data Quality-Tools integrieren, und ETL-Anbieter bieten in ihren Lösungen verwandte Tools an, z. B. für das Mapping von Daten und die Datenabfolge.
ETL und Metadaten
Metadaten helfen uns dabei, die Herkunft der Daten (Ursprungsquelle) und ihre Auswirkungen auf andere Datenbestände im Unternehmen zu verstehen. Da die Datenarchitekturen immer komplexer werden, ist es wichtig zu verfolgen, wie die verschiedenen Datenelemente in Ihrem Unternehmen verwendet werden und miteinander in Beziehung stehen. Wenn Sie beispielsweise den Namen eines Twitter-Accounts zu Ihrer Kundendatenbank hinzufügen, müssen Sie wissen, welche Aspekte davon betroffen sein werden, z. B. ETL-Jobs, Anwendungen oder Berichte.
SAS® Data Management in Action
Mit SAS Data Management können Sie riesige Datenmengen wie zum Beispiel Kundendaten aus Twitter-Feeds nutzen, um gänzlich neue und wichtige Informationen zu erhalten. Matthew Magne erklärt, wie SAS Twitter-Daten in einen Data Lake einspeisen, die Daten bereinigen und mit Profilen versehen kann, um dann die Kunden ausfindig zumachen, die ihnen wegbrechen werden. Denn dann können Sie einen Plan mit Gegenmaßnahmen erstellen.
Wie funktioniert das?
ETL ist außerdem mit zahlreichen anderen Funktionen, Prozessen und Techniken der Datenintegration eng verbunden. Wenn man all' das versteht, kann man die Funktionsweise von ETL viel besser nachvollziehen.
SQL | Die „ Structured Query Language“ ist die gängigste Methode für den Zugriff auf und die Datentransformation in einer Datenbank. |
Umwandlung, Business-Regeln und entsprechende Anpassungen | Nach ihrer Extraktion werden Daten während des ETL-Prozesses anhand von Business Regeln in neue Formate umgewandelt. Diese umgewandelten Daten werden dann in das gewünschte System geladen. |
Data Mapping oder Datenzuordnung | Die Datenzuordnung ist Teil des Transformationsprozesses. Das Mapping gibt einer Anwendung detaillierte Anweisungen, wie die zu verarbeitenden Daten zu erhalten sind. Sie beschreibt zudem, welches Quellfeld welchem Zielfeld zugeordnet ist. Das dritte Merkmal eines Datenfeeds von Website-Aktivitäten könnte beispielsweise der Nutzername sein, das vierte der Zeitstempel, also der Zeitpunkt der Aktivität, und das fünfte das Produkt, das der Nutzer angeklickt hat. Eine Anwendung oder ein ETL-Prozess, die bzw. der diese Daten verwendet, müsste dann dieselben Felder oder Attribute aus dem Quellsystem (d. h. dem Datenfeed der Website-Aktivitäten) in das vom Zielsystem benötigte Format übertragen. Handelt es sich bei dem Zielsystem um ein CRM System, könnte es den Benutzernamen an erster Stelle und den Zeitstempel an fünfter Stelle speichern. Das ausgewählte Produkt wird dabei möglicherweise überhaupt nicht gespeichert. In diesem Fall kann eine Umwandlung des Datenformats in das gewünschte Format (und in der richtigen Reihenfolge) zwischen dem Lesen der Daten aus der Ursprungsdatei und dem Schreiben in der Zieldatei erfolgen. |
Scripts | ETL ist eine Methode zur Automatisierung von Scripts (Anweisungen), die im Hintergrund ablaufen, um Daten zu verschieben und umzuwandeln. Bevor es ETL gab, wurden Scripts einzeln in C oder COBOL geschrieben, um Daten zwischen bestimmten Systemen zu übertragen. Dies hatte zur Folge, dass in mehreren Datenbanken unzählige Skripte liefen. Die ersten ETL-Tools liefen auf Mainframes als Batch-Prozess. Später wurde ETL auf UNIX- und PC-Plattformen migriert. Auch heute noch verwenden Unternehmen sowohl Scripts als auch programmgesteuerte Datenübertragungs-methoden. |
ETL im Vergleich zu ELT | Am Anfang der Entwicklung gab es ETL. Später fügten Unternehmen ELT als komplementäre Methode hinzu. ELT übernimmt die Daten aus einem Ausgangssystem, lädt sie in ein Zielsystem und nutzt dann wiederum die Rechenleistung des Ausgangssystems, um die Umwandlungen durchzuführen. Dies beschleunigt die Datenverarbeitung, weil sie dort durchgeführt wird, wo sich die Daten befinden. |
Datenqualität | Vor der Datenintegration wird häufig eine Staging Area eingerichtet, in der die Daten bereinigt, Datenwerte vereinheitlicht (NC und North Carolina, Mister und Mr. oder Matt und Matthew), Adressen überprüft und Doubletten entfernt werden können. Viele Lösungen sind immer noch Standalone-Lösungen, aber die Datenqualität kann jetzt als eine der Transformationen im Datenintegrationsprozess ausgeführt werden. |
Planung und Ablauf | ETL-Tools und -Technologien bieten entweder eine Batch-Planung oder Echtzeit-Prozessfähigkeit. Sie können auch große Datenmengen auf dem Server verarbeiten oder die Verarbeitung auf die Datenbanksystem-Ebene übertragen. Im Gegensatz zu einer spezialisierten Anwendung wird bei dem Verarbeitungsprozess in einer Datenbank die Duplizierung von Daten vermieden, und es müssen keine zusätzlichen Kapazitäten auf der Datenbankplattform genutzt werden. |
Batch-Verarbeitung oder Batch processing | ETL bezieht sich normalerweise auf eine Batch-Verarbeitung, bei der große Datenvolumen zwischen zwei Systemen in einem sogenannten „Batch-Fenster“ verschoben werden. Während dieses festgelegten Zeitraums (bspw. zwischen 12 und 13 Uhr) können weder im Quell- noch im Zielsystem Aktionen durchgeführt werden, weil dann die Datensynchronisierung läuft. Die meisten Banken führen daher einen nächtlichen Batch-Prozess durch, um die im Laufe des Tages anfallenden Transaktionen abzuwickeln. |
Webservices | Web-Services sind eine internetbasierte Methode zur Bereitstellung von Daten oder Funktionalitäten für verschiedene Anwendungen, nahezu in Echtzeit. Diese Methode vereinfacht die Datenintegrationsprozesse und ermöglicht es, schneller einen Mehrwert aus den Daten zu ziehen. Nehmen wir beispielsweise an, dass sich ein Kunde an Ihr Call Center wendet. Sie könnten einen Web-Service entwickeln, der das vollständige Kundenprofil mit einer Antwortzeit von weniger als einer Sekunde anzeigt, indem Sie nur eine Telefonnummer an einen Web-Service übergeben, der daraufhin die Daten aus mehreren Quellen oder einem MDM-Hub extrahiert. Mit einem umfangreichen Wissen über den Kunden, kann der Kundendienstmitarbeiter besser entscheiden, wie er mit ihm interagiert. |
Stammdatenmanagement | MDM umschreibt den Prozess der Datenzusammenführung, um eine einheitliche Ansicht der Daten aus verschiedenen Quellen zu erstellen. Es umfasst sowohl ETL- als auch Funktionen zur Datenintegration, um Daten zusammenzuführen und einen "Golden Record" oder "Best Record" zu erstellen. |
Datenvirtualisierung | Virtualisierung ist eine schnelle Methode zur Zusammenführung von Daten, um eine virtuelle Datenansicht zu erstellen, ohne sie zu verschieben. Bei der Datenvirtualisierung werden die Daten zwar auch zugeordnet und verknüpft, aber im Gegensatz zu ETL ist keine physische Zwischenspeichertabelle für die Ergebnisse erforderlich. Das liegt daran, dass die Ansicht häufig im Speicher abgelegt und zwischengespeichert wird, um die Leistung zu steigern. Einige Datenvirtualisierungslösungen, wie der SAS Federation Server, bieten dynamische Datenmaskierung, Randomisierung und Hashing-Funktionalitäten zum Schutz von sensiblen Daten vor bestimmten Rollen oder Gruppen. SAS bietet außerdem eine Datenqualität auf Nachfrage, während die Ansicht generiert wird. |
Event Stream Processing und ETL | Wenn die Datengeschwindigkeit auf Millionen von Vorgängen pro Sekunde ansteigt, kann das Event Stream Processing zur Überwachung und Verarbeitung der Datenströme sowie zur leichteren, zeitnahen Entscheidungsfindung eingesetzt werden. In der Energiebranche wird beispielsweise Predictive Analytics bei Datenströmen eingesetzt. Man erkennt damit, wann eine Tauchpumpe repariert werden muss und reduziert sowohl Ausfallzeiten als auch den Umfang und die Größe von Schäden. |
Mehr zu diesem Thema
- The importance of data quality: A sustainable approachBad data wrecks countless business ventures. Here’s a data quality plan to help you get it right.
- Key questions to kick off your data analytics projectsThere’s no single blueprint for starting a data analytics project. Technology expert Phil Simon suggests these 10 questions as a guide.
- Was ist ein Data Lake und warum ist er wichtig?Ein Data Lake kann große Mengen an Rohdaten speichern. Er erlaubt den direkten Zugriff sowie eine einfache Darstellung/Analyse der Daten. SAS DE
- 5 data management best practices to help you do data rightFollow these 5 data management best practices to make sure your business data gives you great results from analytics.