SAS & Hadoop, ovvero come trasformare i Big Data in Big Knowledge

Hadoop sta emergendo come file system di riferimento per il mondo dei Big Data. Come sempre succede, però, la quantità delle informazioni non si traduce di per sé in un insight più accurato sulla realtà del business. Ecco alcune utili indicazioni per trasformare Hadoop da framework di processamento e storage in una vera e propria piattaforma analitica.

Articolo di Angelo Tenconi, Customer & Sales Support Director - SAS


Hadoop, il file system open source specificamente progettato per garantire il processamento parallelo e lo storage di volumi enormi di dati, strutturati e non strutturati, sta godendo di una crescente popolarità anche in ambito corporate. E non è un caso che, come dimostra una recente ricerca (TDWI Check List Report, marzo 2014), ben l'88% delle aziende vede in Hadoop una rilevante opportunità e il 51% ne prevede un'implementazione a breve. Neppure Hadoop però sfugge al problema di fondo: che fare della massa dei dati disponibili? E come ottenere un vero insight sui fattori che influenzano il successo del business? SAS può aiutare le aziende a sfruttare le potenzialità di Hadoop e le opportunità dei Big Data con le tecnologie analitiche di ultima generazione, all'esplorazione visuale dei dati agli Advanced Analytics, dalla creazione in-memory dei modelli al deploy automatico nell'ambiente di produzione..

Hadoop, più efficienza nel trattamento dei Big Data e meno costi

In effetti, è proprio lo stretto collegamento tra Hadoop e Big Data a spiegare la sua crescente popolarità. Perché l'affermazione dell’ecosistema Hadoop scaturisce dalla capacità di collezionare e storicizzare anche informazioni destrutturate tipiche del mondo Big Data: eventi telematici, testi, immagini, file video e audio. In più, fattore chiave da tenere in considerazione vista la mole di dati che a tendere le aziende si troveranno a dover raccogliere, ha un costo decisamente inferiore rispetto ad altri sistemi di mercato. E inoltre assicura una scalabilità virtualmente illimitata per il processo di dati su larga scala: basta aggiungere nuovi nodi, sotto forma di macchine commodity, al crescere delle esigenze elaborative. Hadoop è innanzitutto una opportunità per gli attuali clienti e partner SAS, perché potranno sfruttare i vantaggi computazionali e di costo di questi nuovi paradigmi utilizzando competenze già acquisite e consolidate.

SAS, un passo oltre Hadoop

Il dipartimento R&D di SAS negli ultimi mesi ha infatti rilasciato un insieme di aggiornamenti destinati a facilitare le operazioni di accesso, analisi e reporting per il mondo Hadoop. Con le evoluzioni delle proprie tecnologie, SAS siconfigura come l'unico software in grado di gestire l'intero ciclo di vita dei dati in un'ottica integrata, dal data management alla data exploration, dalla modellizzazione al deploy dei modelli nell'ambiente di produzione. E le aziende possono combinare il meglio dei due mondi, SAS e Hadoop, per ricavare un insight sui dati impensabile in passato e per ottimizzare l'intero processo analitico in tutte le sue fasi.


FROM

Fase 1. Ottimizzare la gestione e l'integrazione dei dati Hadoop

  • Utilizzare gli strumenti SAS per accedere e integrare i dati da e verso Hadoop. Le nuove funzionalità di SAS sono finalizzate a ottimizzare l'integrazione, il consolidamento e la trasformazione dei dati provenienti dal sistema. In questo modo, data scientist e gestori dei dati possono trattare i flussi informativi di Hadoop come se fossero generati da un database tradizionale.
  • Processare i dati in tempo reale. Si tratti di transazioni finanziarie o di rilevamenti dei sensori, la diffusione pervasiva della sfera digitale e del cosiddetto 'Internet delle cose' impone di collezionare e di processare le informazioni in tempo reale. Le tecnologie SAS di Event Stream Processing permettono di raccogliere i dati nel momento in cui sono prodotti, di applicare in streaming logiche analitiche evolute per trasformare i dati grezzi in eventi complessi e di storicizzare direttamente su Hadoop questi eventi.
  • Ottenere viste virtuali dei dati senza overhead di movimentazione. Spesso Hadoop si affianca a fonti informative esistenti e a tecnologie già consolidate di archiviazione dei dati. In questo caso, gli strumenti SAS di Data Federation consentono di mantenere i dati là dove essi risiedono e di creare viste virtuali federate di tutte le informazioni disponibili.

WITH

Fase 2. Esplorare i dati Hadoop in modalità interattiva e visuale

  • Quali sono i dati veramente significativi per monitorare le performance aziendali? Come ottenere una visione olistica del cliente da tutti i canali di interazione? Esistono dinamiche e tendenze nascoste utili a elaborare nuove strategie? Le tecnologie in-memory analytics di SAS, si tratti di Visual Analytics o di Visual Statistics, offrono l'opportunità di esplorare in modo rapido e intuitivo le informazioni residenti su Hadoop e le fonti informative tradizionali, sempre più complesse sotto il profilo della quantità e dell'eterogeneità di formato. In questo modo, data scientist e utenti business sono in grado di studiare i dati, di scoprire trend e relazioni tra le variabili in gioco, di prefigurare possibili modelli analitici e di acquisire una visione olistica dei fenomeni di interesse.

WITH

Fase 3. Analizzare e creare modelli con metodi evoluti e di machine-learning

  • Un ambiente visuale per modelli descrittivi e predittivi. La combinazione di High Performance Analytics e di interfacce utente drag & drop offre ai data scientist un ambiente di lavoro intuitivo per costruire modelli predittivi e prescrittivi, effettuare test e simulazioni, riutilizzare e aggiornare scenari. In più, le tecnologie in-memory non solo accelerano i tempi di elaborazione e di risposta, ma migliorano altresì drasticamente le performance dei modelli, che possono basarsi sull'intera popolazione dei dati piuttosto che su semplici campioni.
  • I modelli che imparano dai nuovi dati. Grazie agli algoritmi e metodologie SAS di machine-learning, i modelli sono in grado attivare operazioni di auto-calibrazione e di auto-affinamento man mano che nuovi dati si aggiungono all'archivio.

IN

Fase 4. Installare automaticamente i modelli nell'ambiente di produzione

  • Le elaborazioni dei dati ed il modello analitico, una volta collaudati, verificati e dichiarati pronti per la produzione, vengono portati nel cluster Hadoop attraverso apposite tecnologie in-database. Il porting automatico dei modelli e la loro applicazione diretta sui dati Hadoop riduce drasticamente il tempo di esecuzione delle elaborazioni negli ambienti produttivi, con evidenti benefici in termini di risorse informatiche e finanziarie.
Hadoop-AYP3240325

Angelo Tenconi

Customer & Sales Support Director
SAS