SQL	Lo structured query language è il metodo più usato per l'accesso e la trasformazione dei dati all'interno di un database.
Trasformazioni, regole di business e adapter	Dopo aver estratto i dati, l'ETL utilizza le regole di business per trasformare i dati in nuovi formati. Una volta trasformati, i dati sono caricati nella destinazione.
Data Mapping (Mappatura dei dati)	La mappatura dei dati fa parte del processo di trasformazione. Sostanzialmente fornisce a un'applicazione istruzioni precise su come ottenere i dati che dovrà poi elaborare. Inoltre, indica quale campo sorgente è associato a un determinato campo di destinazione. Per esempio, il terzo attributo di un flusso di dati sull'attività di un sito web può essere il nome utente, il quarto la data e l'ora di quell'attività e il quinto il prodotto su cui l'utente ha cliccato. L'applicazione o il processo ETL che usa quel dato mapperà questi stessi campi o attributi dal sistema di origine (per esempio, il feed con i dati dell'attività sul sito) nel formato richiesto dal sistema di destinazione. Se il sistema di destinazione fosse il sistema di gestione della relazione con i clienti (customer relationship management), potrebbe memorizzare come primo dato il nome utente e come quinto data e ora, mentre potrebbe non memorizzare affatto il prodotto selezionato. In questo caso, la trasformazione della data nel formato atteso e il posizionamento secondo l'ordine giusto potrebbero avvenire tra il momento in cui i dati vengono letti nella sorgente e quello in cui vengono scritti nella destinazione.
Script	L'ETL è un metodo per automatizzare gli script (istruzioni) che vengono eseguiti in background per spostare e trasformare i dati. Prima dell'ETL per trasferire i dati tra sistemi specifici, gli script venivano scritti singolarmente in C o COBOL. In questo modo, si originavano molteplici database con numerosi script. I primi strumenti di ETL funzionavano su mainframe come processo batch. In seguito, l'ETL è migrato su piattaforme UNIX e PC. Ancora oggi, le organizzazioni utilizzano sia gli script sia metodi programmatici di spostamento di dati.
ETL e ELT a confronto	In principio c'era l'ETL. Successivamente, le organizzazioni hanno aggiunto l'ELT come metodo complementare. L'ELT estrae i dati da un sistema di origine, li carica in un sistema di destinazione e sfrutta la potenza di elaborazione del sistema di origine per eseguire le trasformazioni. Ciò velocizza l'elaborazione dei dati, poiché avviene dove questi risiedono.
Data quality	Prima d'integrare i dati, spesso viene creata un'area di staging in cui è possibile pulire i dati, standardizzarne i valori (NC e North Carolina, Mister e Mr., Matt e Matthew), verificare gli indirizzi ed eliminare i duplicati. Molte soluzioni sono ancora indipendenti, ma le procedure di data quality possono ora essere eseguite come una delle trasformazioni nel processo di data integration.
Pianificazione ed elaborazione	Gli strumenti e le tecnologie ETL possono fornire una pianificazione in batch o funzionalità in tempo reale. È inoltre possibile elaborare volumi elevati di dati sul server o portare l'elaborazione al livello di database. Questo approccio, che prevede l'elaborazione in un database anziché in un motore specializzato, evita la duplicazione dei dati e la necessità di utilizzare capacità extra nella piattaforma del database.
Elaborazione in batch	Solitamente l'ETL sfrutta l'elaborazione in batch per spostare grandi volumi di dati tra due sistemi durante la cosiddetta batch window. In questo arco di tempo predefinito – per esempio tra le 12.00 e le 13.00 – non è possibile eseguire nessuna attività nel sistema di origine né tantomeno in quello di destinazione, poiché è in corso la sincronizzazione dei dati. Molte banche effettuano l'elaborazione in batch di notte per risolvere le transazioni che avvengono durante il giorno.
Servizi web	I servizi web sono un metodo basato sull'uso di Internet per fornire dati o funzionalità a varie applicazioni in tempo quasi reale. Questo metodo semplifica i processi d'integrazione dei dati e riesce a ricavare valore dai dati in modo più veloce. Per esempio, supponiamo che un cliente contatti il servizio clienti di un'azienda. È possibile creare un servizio web che restituisca il profilo completo del cliente con un tempo di risposta inferiore al secondo, semplicemente passando il numero di telefono a un servizio web che estrae i dati da molteplici fonti o da un hub MDM. Avendo una maggiore conoscenza del cliente, l'addetto al servizio clienti potrà prendere decisioni più efficaci su come interagire con quel cliente.
Master data management	Con MDM s'intende il processo di aggregazione dei dati per creare una vista unica dei dati attraverso sorgenti multiple. Ciò comprende sia l'ETL sia le funzionalità di data integration, per combinare i dati e creare un cosiddetto golden record o best record.
Virtualizzazione dei dati	La virtualizzazione è un metodo agile per combinare i dati e creare una vista virtuale dei dati senza doverli spostare. Sebbene vengano eseguite le operazioni di mappatura e unione dei dati, la virtualizzazione dei dati si differenzia dall'ETL perché non occorre una tabella di staging fisico per archiviare i risultati. La vista, infatti, viene spesso archiviata in memory e allocata nella cache per migliorare le prestazioni. Alcune soluzioni di data virtualization, come SAS Federation Server, forniscono funzioni di mascheramento dinamico dei dati, randomizzazione e hashing per rendere disponibili i dati sensibili a ruoli o gruppi specifici. SAS fornisce inoltre data quality on-demand, durante la creazione della vista.
Event stream processing e ETL	Con l'aumento della velocità dei dati fino a milioni di eventi al secondo, l'event stream processing può essere utilizzata per monitorare i flussi dei dati, elaborarli e contribuire a prendere decisioni più tempestive. Nel settore energetico, per esempio, si usa l'analisi predittiva sui flussi dei dati per capire quando occorre riparare una pompa sommersa, in modo da ridurre il tempo d'inattività della pompa, nonché l'entità e la gravità del danno.

ETL

Che cos'è e perché è importante

Storia dell'ETL

Perché l'ETL è importante

L'ETL nel mondo di oggi

Sette modi per modernizzare la Data Integration

I vantaggi della Single Customer View

Ripensare la Data Integration

David Loshin, Presidente di Knowledge Integrity Inc. The new data integration landscape: moving beyond ad hoc ETL to an enterprise data integration strategy

Il software SAS di Data Integration

Come si utilizza l'ETL

I principali strumenti ETL ed ELT lavorano in tandem con altri strumenti di data integration e con vari aspetti del data management, come qualità e governance dei dati, virtualizzazione e metadati. Tra gli usi più frequenti figurano:

ETL e impieghi tradizionali

ETL e Big Data: trasformazioni e Adapter

ETL per Hadoop e molto altro

ETL e accesso ai dati in modalità self-service

ETL e Data Quality

ETL e Metadati

SAS® Data Management in azione

Come funzionano

L'ETL è strettamente connesso a numerose funzioni, processi e tecniche di data integration. Comprenderli fornirà un quadro più chiaro di come funziona l'ETL.

Scopri di più su questo argomento

Follow Us

What is...

SAS^® Data Management in azione