Education & Future
Quali sono le principali tendenze che i data scientist dovrebbero conoscere?
Di Marinela Profi, Data Scientist | Global Product Marketing Manager - Data Science, AI, MLOps
Come data scientist, sono convinta che la curiosità sia il nostro più grande “superpotere”. La ragione è semplice: ci si aspetta dai data scientist una "modalità di apprendimento" sempre attiva con nuove tecnologie da imparare, strumenti da implementare e dati da analizzare.
Il lavoro del data scientist è in cima alla lista dei lavori che hanno determinato un impattato nel corso della pandemia. Una professione cresciuta sia di importanza che nella domanda, dato che molte organizzazioni stanno accelerando i progetti di trasformazione digitale utilizzando la tecnologia per migliorare le attività di business.
Un recente studio (Accelerated Digital Transformation | E-book | SAS) ha analizzato l'impatto della pandemia, le sfide affrontate e la soddisfazione generale dei data scientist con l'ambiente di analisi. Più del 90% degli intervistati ha indicato che l'importanza del loro lavoro è la stessa o maggiore rispetto al periodo precedente la pandemia.
Ma quali sono le 7 principali tendenze su cui i data scientist dovrebbero concentrarsi per raggiungere nuovi traguardi e rimanere competitivi nell’era post-pandemica?
Come data scientist, sono convinta che la curiosità sia il nostro più grande “superpotere”, ci si aspetta da noi una "modalità di apprendimento" sempre attiva: nuove tecnologie da imparare, strumenti da implementare e dati da analizzare.
Marinela Profi
Data Scientist | Global Product Marketing Manager -
Data Science, AI, MLOps
1. Responsible AI
In molte discipline, i modelli vengono utilizzati per supportare o automatizzare decisioni che tradizionalmente venivano prese dalle persone, decisioni che spesso hanno implicazioni etiche. Secondo Forrester (Predictions 2022: Artificial Intelligence), il mercato della Responsible AI, che attualmente vale 75 milioni di dollari, raddoppierà nel corso dell'anno. Lo studio di Forrester ha anche individuato mancanze nell’attenzione delle organizzazioni sull'etica dell'IA: il 43% degli intervistati ha dichiarato che la loro organizzazione non effettua revisioni specifiche dei suoi processi analitici rispetto a bias e discriminazione e solo il 26% riferisce di considerare la bias analysis come kpi per misurare il successo dei modelli.
Nel suo articolo "The vital ingredients of Responsible AI", Olivier Penel, Advisory Business Solutions Manager SAS, elenca le principali capacità tecniche necessarie per abilitare la Responsible AI, ossia privacy e qualità dei dati, individuazione e correzione dei bias, comprensibilità e trasparenza, governance e monitoraggio dei modelli.
2. Aumento dell'automazione
L'automazione riguarda l'aumento della produttività e la riduzione del time to value. In pratica, si tratta di facilitare il lavoro dei data scientist, non di sostituirli. Stiamo già vedendo un aumento dell'automazione nella data science, specialmente nella fase di modellazione con tecniche quali automated machine learning (AutoML). L'automazione non dovrebbe mai essere una "black box", ma dovrebbe andare in parallelo con processi efficaci che assicurino la governance e la trasparenza.
Un'altra area in cui l'automazione gioca un ruolo importante è la preparazione e la pulizia dei dati. I data scientist dedicano circa l'80% del loro tempo a queste attività. Tuttavia, quando qualcuno chiede "fino a che punto posso automatizzare questo processo?" la risposta è “dipende”! La maggior parte dei task che riguardano la preparazione dei dati si basa sulle interazioni con il cliente, specialmente quando si tratta di attività quali la pulizia di una tabella con dati errati.
Altri task, invece, possono (e dovrebbero) essere automatizzati, per esempio, l’automazione della segmentazione e controllo statistico dei dati di training, è un caso in cui l’automazione assicura che i dati di test siano rappresentativi della popolazione target di riferimento.
3. Piattaforme di IA e Analytics
Da una prospettiva tecnologica c'è un diversificato ecosistema di scelte disponibili per i data scientist. Questo può abbracciare linguaggi, come SAS, Python e R, ambienti di sviluppo, tecnologie di deployment, macchine virtuali, Kubernetes e altro ancora.
L'ultima volta che ho visto il panorama dell'IA e del Machine Learning, appariva così.
Non c’è pertanto da meravigliarsi se la mia prima reazione sia stata "Da dove comincio?” Le piattaforme di IA e Analytics sono l’hot trend che ogni data scientist dovrebbe iniziare a conoscere. Una piattaforma deve:
- includere tutti i diversi compiti del ciclo di vita del modello in un unico ambiente;
- integrarsi con altre tecnologie, sia open source che proprietarie per fornire flessibilità e apertura, compresi i cloud provider;
- eliminare la necessità di spendere tempo nel costruire e mantenere strumenti e integrazioni;
- gestire attività ripetitive e dispendiose in termini di tempo come il lineage, la tracciabilità, il versioning, ecc;
- fornire l'accesso a diversi ambienti di deployment e disporre di capacità integrate di monitoraggio delle performance dei modelli.
4. Cloud Computing
Sempre più aziende stanno iniziando a constatare i reali benefici del cloud grazie alla sua capacità di aumentare la velocità di sviluppo e di deployment, all’agilità e scalabilità.
Date le grandi dimensioni dei dataset, il cloud computing è l’ambiente ideale per i data scientist, in quanto rende molto più facile espandere la potenza di calcolo e beneficiare di ambienti distribuiti.
5. Composite AI
Secondo il Gartner's 2020 Hype Cycle for Emerging Technologies, è la "combinazione di diverse tecniche di AI che permette di ottenere il miglior risultato". Non si tratta solo di apprendimento automatico, ma di una combinazione di tecniche - statistiche, data mining, previsione, ottimizzazione, elaborazione del linguaggio naturale (NLP), computer vision e altre - a seconda del problema di business.
I problemi che i data scientist sono chiamati a risolvere sono complessi e possono spesso richiedere sia dati strutturati che non strutturati, richiedendo l'applicazione di diverse tecniche di AI o Composite AI. Un esempio di applicazione di Composite AI è nella manutenzione predittiva, un buon progetto di manutenzione predittiva ha componenti di previsione, di machine learning e di tecniche di ottimizzazione. I data scientist dovrebbero imparare come adottare e applicare con successo la Composite AI in use case reali.
6. DataOps
DataOps è una disciplina relativamente nuova e consiste in un approccio agile all'accesso ai dati, alla qualità, alla preparazione e alla governance.
Entro il 2023, il 60% delle imprese del Global 2000 di Forbes avrà un'architettura dati in grado di abilitare pratiche di DataOps, ingegnerizzazione dei dati basata su tecniche di machine learning e riduzione dei rischi per guidare l'innovazione della Gen D (Generation Data). (IDC FutureScape: Worldwide Data and Content Technologies 2022 Predictions). La necessità di pratiche di DataOps, nasce dal bisogno di rendere operativo e mantenere il ciclo di vita di più dati e pipeline di analisi insieme e portare velocità e agilità all'intero processo. Anche se le pratiche di DataOps probabilmente richiederanno competenze specializzate, è tuttavia un tema rilevante per i data scientist, in quanto garantisce fluidità e ottimizzazione dei processi.
7. MLOps/ModelOps
Una delle principali sfide che i data scientist hanno affrontato negli ultimi 12 mesi, oltre alla difficoltà nell'implementazione/valutazione dei modelli, è che i loro risultati non sono stati utilizzati dai decision maker (fonte: Accelerating digital transformation, SAS 2022) ModelOps gioca un ruolo importante nell'aiutare a risolvere questi problemi, a rendere operativi gli analytics at scale, e infine a trasformare i modelli in decisioni aziendali. Questa è sicuramente una tendenza che sarà fondamentale. IDC prevede che entro il 2024, il 60% delle imprese avrà reso operativi i propri flussi di lavoro di Machine Learning attraverso capability MLOps / ModelOps (IDC FutureScape: Worldwide Artificial Intelligence and Automation 2022 Predictions).
Scarica l'ebook con i principali highlight emersi della survey rivolta a data professionals a livello worldwide.
Gennaio 2023
Articoli consigliati
-
Innovation sparksPuntare sulla GenAI: 3 tecniche per combattere le frodi e i crimini finanziariIn che modo la Generative AI può davvero aiutare banche e servizi finanziari a prevenire frodi e crimini finanziari? Ecco alcuni esempi di applicazione.
-
Innovation sparksIntelligent Planning: come l'AI sta rivoluzionando l'efficienza aziendaleIn questa intervista, Antonino Claudio D'Agata di Axiante, partner SAS, ci offre uno sguardo approfondito sulle sfide e le opportunità legate all'implementazione dell'Intelligent Planning.
-
Innovation SparksSAS Viya Workbench: un ambiente analitico “potenziato”, sicuro e multilinguaggioScopri in questo articolo le principali caratteristiche tecniche di SAS Viya Workbench, con un focus su ciò che è realmente utile per chi sviluppa e gestisce modelli analitici.
-
Innovation sparksObiettivo Zero emissioni: l’esperienza di Intesa SanpaoloL'impegno di Intesa Sanpaolo per mitigare i rischi climatici e per garantire una crescita economica compatibile con gli obiettivi globali di sostenibilità. Intervista a Luca Tomasetto, Area Chief Sustainability Office – Responsabile ESG Metrics & Targets di Intesa Sanpaolo.