SAS Data Loader for Hadoop: una app virtuale per ricavare nuovi insight dai Big Data su Hadoop

Articolo di Pietro Ferraro - SAS


Ormai tutti parlano di Big Data, e tutti sanno come Hadoop si stia imponendo come ecosistema di riferimento – anche se non tutti sappiano dire di cosa si tratti esattamente. Ma perché questo successo? Il primo motivo è la capacità di memorizzare grandi quantità di dati a costi competitivi.

Inoltre, Hadoop è preferibile anche grazie alla sua capacità di immagazzinare le nuove tipologie di informazioni, soprattutto quelle non strutturate come file, immagini, testuali, interazioni web, dati provenienti dalla sensoristica, dall'Internet of Things, etc.

Oggi è possibile far confluire informazioni massive in quello che viene definito 'Data Lake', a sottolineare una sorta di rivoluzione emergente nel modo stesso di concepire l'archiviazione, che non deve più essere modellata ed organizzata a priori in relazione alla tipologia e alla natura dei dati da archiviare. Inoltre il motivo forse meno sottolineato, è la sua grande propensione all’elaborazione massiva e parallela sugli stessi dati, grazie alla sua capacità di ottimizzare i carichi di lavoro su cluster di diverse macchine o nodi. Queste motivazioni lo rendono uno strumento (ed un approccio) irresistibile per chi vuole analizzare dati massivi (in azienda e non) su clienti, usi, comportamenti, prestazioni, rischi, opzioni, in modo realmente analitico.

Con la sua interfaccia intuitiva e wizard driven, SAS Data Loader for Hadoop si configura come uno strumento self-service che maschera le complessità insiste nell'interazione con Hadoop e semplifica le attività di data integration, data preparation e data quality da e verso Hadoop.

Sfruttare Hadoop a fini analitici non è cosa per tutti

Sfruttare appieno le funzionalità evolute di Hadoop richiede competenze fortemente specialistiche, difficilmente reperibili in azienda o sul mercato. Inoltre, nonostante gli sforzi di una numerosa community di sviluppatori, la maturità di Hadoop in termini di sicurezza e governance dei dati non è ancora consolidata. Infine, il grado di interattività con l'utente è relativamente scarso e i tempi di risposta nell'analisi delle informazioni dilatati rispetto alle necessità dell'utente di business. Ma, si dirà, a che serve un 'data lake' se il reperimento delle informazioni utili per il business è così faticoso?

SAS Data Loader for Hadoop, recentemente rilasciato da SAS, può aiutarvi a superare le limitazioni di Hadoop e a sfruttare il 'data lake' a fini analitici. Scopriamo come.

Numero 01

L'interfaccia utente wizard driven semplifica la data preparation

Con la sua interfaccia intuitiva, web based e basata su Wizard, SAS Data Loader for Hadoop si configura come uno strumento self-service che maschera la complessità insite nell'interazione con Hadoop e semplifica le attività di integrazione, trasformazione e verifica di qualità dei dati nonché il loro trasferimento da e verso Hadoop. In questo modo gli utenti business possono, in piena autonomia, non solo acquisire o integrare dati da fonti esterne e copiarli in e da Hadoop, ma anche effettuare operazioni di profiling, standardizzazione e trasformazione dei dati, selezionando, ad esempio, righe e colonne, ordinando e aggregando tabelle o filtrando i campi secondo i criteri di interesse. Riducendo così i tempi correlati con la data preparation, che rappresenta larga parte del tempo dedicato allo sviluppo dei modelli. La novità è che tutte queste operazioni vengono effettuate dal cluster Hadoop quindi senza la necessità di spostare i dati in ulteriori sistemi dedicati per la data preparation e la data quality. Perciò si sfrutta il sistema Hadoop come archiviazione, e come capacità di elaborazione, senza dover essere degli esperti.

Numero 02

La virtual application azzera i tempi di installazione e di apprendimento

SAS Data Loader for Hadoop è una virtual application che, in quanto tale, riduce drasticamente tempi e attività di installazione e configurazione. Basta scaricare la virtual machine e configurarla, per fruire dello strumento.

Numero 03

La soluzione supera il collo di bottiglia delle richieste all'IT

Altro piccolo vantaggio, per gli utenti SAS, è che il risultato del lavoro è subito a disposizione dei tool SAS, ad esempio delle proprie soluzioni di in-memory analytics. In questo modo, l’acquisita rapidità nel reperimento e nella fruizione di nuovi dati o dati massivi da parte degli utenti, diventa una leva strategica determinante per il successo. SAS Data Loader for Hadoop offre all'utente di business completa libertà di azione e di analisi, superando il collo di bottiglia delle tante richieste dati fatte all’IT. Ad esempio, basta seguire i passi delle wizard per trovare i dati che servono, trattarli e trasferirli direttamente nella piattaforma in-memory di SAS, dove sono già pronti per essere elaborati dal motore analitico e con la semplicità d'uso di SAS Visual Statistics e di SAS Visual Analytics.

Numero 04

L'utente di business diventa protagonista nel processo di analisi

La combinazione unica delle capacità prestazionali di Hadoop e della potenza analitica di SAS trasforma l'utente da utilizzatore finale di dati prodotti da altri in parte autonoma ed attiva nel processo di analisi dei Big Data a fini di business. Mentre la funzione IT viene liberata dalle operazioni di routine e può dedicarsi alle attività a più alto valore aggiunto, come amministrazione, sicurezza e governo dei dati, l'utente di business può accedere e sfruttare i Big Data disponibili per realizzare ed ottimizzare modelli, aumentandone il numero potenziale e le applicazioni possibili.

Back to Top