Data Preparation, cos'è e quali sono le fasi del processo

Data

Autore: Francesco La Trofa

La data preparation è una disciplina che consente di acquisire, combinare e organizzare i dati per renderle fruibili per la loro analisi. In questo approfondimento esploriamo cos'è nello specifico e quali sono le fasi per la corretta preparazione dei dati.

I sistemi di gestione dei dati sono sempre più orientati a consentire processi di analisi descrittiva e predittiva in tempo reale, per soddisfare un’amplia pluralità di esigenze, in ogni ambito di business. Per garantire una qualità dei dati adeguata è necessario operare in maniera puntuale nella data preparation, quella disciplina che si occupa di preparare i dati secondo i criteri definiti dal data management.

Per fare fronte a numeriche di dati sempre più elevate, anche a fronte di una grande eterogeneità di variabili da correlare, i sistemi di data preparation si avvalgono di soluzioni software in grado di automatizzare i vari passaggi che costituiscono le fasi fondamentali, dalla raccolta alla pubblicazione dei dati. L’obiettivo è di rendere più semplice e più veloce il processo, nell’ottica di ottenere la miglior qualità dei dati possibile in relazione agli obiettivi di business e alle risorse a disposizione.

È dunque arrivato il momento di capire cosa si intende, oggi, per data preparation, quali sono i vantaggi che derivano dall’implementare in maniera davvero efficiente le sue fasi fondamentali. È inoltre necessario dare un’occhiata ai principali vendor che operano in questo settore, anche in vista degli scenari attesi per il futuro prossimo di un mercato in grande fermento, che pare vivere una crescita davvero inarrestabile.

Cos’è la data preparation

La data preparation è una disciplina molto articolata che consente di acquisire, combinare e organizzare i dati per renderle fruibili alla business intelligence (analisi descrittiva) e alla business analytics (analisi predittiva). Funzionalmente a tali obiettivi, la data preparation risulta assolutamente cruciale nel garantire una qualità dei dati che consenta di estrarre un adeguato valore informativo dai dati, la principale risorsa di cui le aziende godono nella trasformazione digitale.

I dati coinvolgono infatti le attività di tutti i reparti aziendali, per cui la loro qualità implica un presupposto essenziale ai fini di superare i tradizionali silos che impediscono di sfruttare le sinergie possibili tra le varie linee di business. Il data management riveste infatti un ruolo centrale nelle attività IT, proprio per cercare di improntare le aziende verso una prospettiva data driven, per valorizzare al meglio il processo di change management necessario per entrare davvero nell’era digitale.

Il mondo dei dati è fatto di tanta tecnologia, per gestire in maniera strategica i dataset in sistemi opportunamente predisposti a farlo: data warehouse, data lake, in cui vengono continuamente riversati dati strutturati e non strutturati provenienti da varie fonti.

Data scientist, data engineer e tutti gli specialisti chiamati a lavorare con i dati in azienda hanno dalla loro un parco software sempre più evoluto nel semplificare operazioni che sarebbero altrimenti piuttosto critiche se dovessero essere affrontare in maniera tradizionale. L’automatizzazione diventa dunque un fatto essenziale, anche per sfruttare al meglio le possibilità tecnologiche offerte dal cloud computing. Come vedremo, il futuro della data preparation sarà sempre più orientato verso l’automazione delle sue fasi, in una logica self service che sappia riepilogare in un unico pannello di controllo tutte le principali operazioni da effettuare, ai fini di garantire la miglior visibilità possibile.

La data preparation prevede un percorso che conduce dalla raccolta del dato grezzo ad un risultato fruibile ai processi di analisi. Soltanto dati di qualità possono essere trasformati in risultati analitici accurati, sia nella descrizione che nella previsione delle dinamiche coinvolte nei report e negli insight ottenibili ormai in tempo reale sulla base del continuo flusso informativo dei processi digitalizzati.

Il dato grezzo spesso risulta inadeguato per una pluralità di fattori, che spaziano dall’evidente lacuna in certi campi dei dati strutturati, a dati che restituirebbero informazioni del tutto fuorvianti se inseriti in un determinato data set senza averne prima valutato con estrema attenzione la natura semantica. Occorre quindi intervenire per completare le mancanze, eliminare le ridondanze e, soprattutto, correggere gli errori.

La preparazione dei dati si fa carico di tutto questo e molto altro, per garantire agli analisti la miglior materia prima possibile per svolgere ogni giorno con successo il loro delicato lavoro.

Quali sono i vantaggi

Senza entrare nei dettagli tecnologici, le ragioni sin qui espresse sarebbero già ampiamente sufficienti per delineare un’ampia varietà di vantaggi per le aziende che decidono di investire in maniera consapevole sulla data preparation. A cominciare da una ricaduta tangibile sulla data governance, fondamentale per attuale quella strategia data-driven alla base della trasformazione digitale. Tra i principali vantaggi che una consapevole attività di preparazione dei dati può innescare, possiamo identificare:

Qualità dei dati per i processi di analisi e machine learning, ai fini di restituire risultati attendibili e utili per generare valore informativo a supporto delle attività delle varie linee di business presenti in azienda;
Qualità dei dati per i processi di analisi e machine learning, ai fini consentire attività compatibili nei tempi e nei costi con quelle previste, senza costringere i professionisti dei dati a dover porre puntualmente rimedio a risultati inattendibili;
Dati strutturati per essere ritualizzati in diversi processi di analisi, anche funzionali a differenti obiettivi;
Ritorno dell’investimento in tempi ridotti, garantito da un miglior supporto decisionale e dal conseguente raggiungimento degli obiettivi di business prefissati.
Riduzione degli errori, grazie all’impiego di strumenti in grado di automatizzare la gestione dei dati lungo il loro intero ciclo di vita, specie in quelle operazioni di routine particolarmente critiche per il livello di attenzione dell’operatore umano;
Riduzione dello stress delle risorse umane, grazie all’impiego di strumenti di in grado di automatizzare la gestione dei dati liberando ore / uomo che possono essere destinate ad attività più strategiche per il business, a partire dalla supervisione e la risoluzione dei punti critici che possono presentarsi in qualsiasi momento all’interno dei processi aziendali.

Per quanto ampio, il quadro favorevole sin qui prospettato va opportunamente declinato in ogni contesto, per capire effettivamente quale sia la realtà e soprattutto quali siano le esigenze che ogni azienda prospetta nel lavoro da effettuare sui dati. È quindi essenziale prevedere un’adeguata fase di assessment ed avvalersi di consulenti esperti, dotati di quel know-how tecnologico e di vita vissuta insieme ai dati di realtà tra loro anche molto differenti, da cui saper trarre quel problem solving essenziale per creare davvero innovazione ed efficienza in azienda. Qualsiasi attività di data preparation non dovrebbe pertanto mai prescindere da una responsabile fase analitica, in cui si acquisisce una profonda conoscenza dei processi che coinvolgono a vario titolo l’azione dei dati stessi.

Le fasi della data preparation

La data preparation è costituita da una serie di fasi lineari, resa in particolar modo flessibile grazie all’approccio real time delle piattaforme software implementate per la sua esecuzione. A prescindere dal livello di automatizzazione, alla base di tutto c’è quasi sempre un framework, costituito da una serie di linee guida utili a giungere all’obiettivo in maniera consapevole, senza trascurare nessuna delle operazioni utili al raggiungimento della qualità dei dati prefissata.

Un framework viene quindi personalizzato in funzione di vari aspetti, tra cui la tipologia dei dati a cui si deve far riferimento e alla loro elaborazione. Anche in questo caso, la scelta dei sistemi di dati e dei tool di analisi può influenzare almeno in parte la struttura delle varie fasi previste.

I software di data preparation seguono principalmente logiche self-service, che non costringono l’operatore umano ad entrare nel merito di ogni singolo dato, ma lo guidano attraverso procedure step-by-step riepilogate per mezzo di intuitive interfacce grafiche. Attraverso una visione unificata dei dati è possibile seguire tutte le fasi con un approccio orientato alla supervisione delle fasi lungo cui si articola la preparazione dei dati.

Questa precisazione ci serve per comprendere la ragione per cui gli strumenti di data preparation vengono spesso integrati direttamente nelle piattaforme di business intelligence e business analytics, il cui compito risiede proprio nell’analisi di quei dati per cui diventa necessario garantire un certo livello di qualità.

La complessità di queste piattaforme software ha quale obiettivo quello di avvalersi di tecniche avanzate nell’ambito dell’intelligenza artificiale e del machine learning, per rendere sempre più semplici, veloci ed efficienti le attività di analisi dei dati. A titolo puramente esemplificativo faremo riferimento ad un ciclo di data preparation basato su sei differenti fasi.

La raccolta dei dati (data gathering)

I dati vengono acquisiti da varie fonti, come i sistemi operativi, i sistemi operativi delle macchine connesse alla rete aziendale, i data warehouse, ancor prima di entrare nel merito dei dataset esistenti e già disponibili a causa di precedenti operazioni.

Una casistica ricorrente vede inoltre l’impiego di dataset esterni, contenenti ciò che prevede una specifica esigenza analitica. A prescindere dalla fonte, durante la raccolta dei dati è opportuno prevedere soprattutto la loro tipologia e coerenza rispetto alle finalità e all’impiego che li vedrà coinvolti.

Scoperta e profilazione (data discovery)

Una volta individuate le fonti più adeguate si entra nel merito della seconda fase della data preparation, che consiste nell’esplorazione dei dati raccolti e alla loro relativa profilazione. In questa fase l’obiettivo principale risiede nel mettere in evidenza e correggere anomalie, mancanza di attributi e metadati, oltre a qualsiasi difetto riscontrabile nei dataset. Il data discovery ha quindi l’obiettivo di rendere consapevoli del contenuto e della struttura dei dati in precedenza raccolti.

Pulizia (data cleaning)

La terza fase della data preparation è caratterizzata dal data cleaning, che affina il risultato ottenuto mediante l’esplorazione e la profilazione dei dati. La pulizia consiste proprio nel risolvere gli errori residui, integrando le lacune e scremando in maniera responsabile tutte le ridondanze che vengono riscontrate. Una volta pulito, il dataset è da considerarsi completo e dotato di una qualità adeguata per le successive fasi elaborative.

Trasformazione e strutturazione (data transformation & data structuring)

La quarta fase della data preparation ha quale obiettivo quello di rendere il dataset perfettamente compatibile con le tecnologie delle applicazioni tenute ad elaborarli. Si tratta di una fase soprattutto tecnica, che prevedere la modellazione, la strutturazione e l’organizzazione dei dati nei formati e sistemi utili a garantire la piena interoperabilità dei tool impiegati dai professionisti dei dati.

Le operazioni più comuni potrebbero essere quelle relative ai formati per data/ora, che in buona parte vengono già rilevati e adattati in automatico dalle applicazioni analitiche, ma possono essere implementate trasformazioni anche molto specifiche. I tool di data preparation consentono di impostare eventualmente delle regole ed automatizzare le procedure necessarie per ottenere i dati nel formato desiderato, scegliendo tra i vari standard di file disponibili, per cui è possibile personalizzare le configurazioni previste.

Arricchimento (data enrichment)

La quinta e penultima fase del loop che caratterizza la data preparation si pone il problema di arricchire i dati trasformati e strutturati ai fini di incrementare il loro livello di qualità. In termini pratici, il data enrichment prevede l’aggiunta di dati e soprattutto l’eventuale collegamento con le fonti utili per ulteriori raccolte, anche se l’attenzione è rivolta al perfezionamento e all’ottimizzazione, non all’acquisizione massiva, come avviene nella prima fase del processo. Il data enrichment tiene inoltre conto degli accorgimenti utili in funzione delle eventuali variazioni degli obiettivi di business che non comportano la ristrutturazione dell’intera data preparation.

Validazione e pubblicazione (data validation & data publication)

La sesta e ultima fase conclude il loop della data preparation, verificando la coerenza necessaria per poter validare definitivamente il dato e pubblicarlo, ai fini di caricarlo sui sistemi predisposti e renderlo disponibile alle successive elaborazioni. La destinazione del dato preparato coincide generalmente con i data warehouse, i data lake e tutti i repository a cui accedono gli strumenti di analisi.

I tool utilizzati nella data preparation

Una sintesi esaustiva dei tool di data preparation viene offerta da Gartner nella sua Data Preparation Tools Reviews and Ratings, secondo cui gli strumenti di preparazione dei dati consentono agli analisti, data engineer e data scientist di integrare dataset provenienti da fonti interne ed esterne ai fini di effettuare le loro operazioni in tempi più rapidi e con una cura adeguata.

Gartner precisa inoltre il ruolo che le tecniche di machine learning hanno progressivamente acquisito nel raggiungimento di questi obiettivi, tracciando in qualche modo un futuro tecnologico sempre più orientato verso il cloud computing.

Secondo una ricerca svolta da Acumen il mercato dei data preparation tools sarebbe destinato a raggiungere un volume di business pari a 13,15 miliardi di dollari entro il 2028, con un incremento medio annuo pari a circa il 20%.

Tornando all’elenco formulato da Gartner nella sua review tematica, i principali data preparation tool ad oggi sarebbero i seguenti, anche se l’elenco non può ovviamente considerarsi esaustivo, essendo previsti strumenti anche molto specifici in funzione dei verticali a cui si rivolgono:

Microsoft (Power BI, Power Query, ecc.)
Tableau Desktop
Alteryx (APA Platform, Designer, Analytics Hub, Connect, Intelligence Suite, ecc.)
Trifacta Wrangler Enterprise
Qlik Sense Enterprise
Altair Monarch
Talend Data Preparation
MicroStrategy
Quest Toad Data Point
SAP Data Intelligence Cloud
Paxata Self-Service Data Preparation
Datameer
Zoho DataPrep
EasyMorph
Informatica Enterprise Data Preparation
Zaloni Arena
Tryfacta Cloud Dataprep (Google)
Looker (Google)
Pentaho Business Analytics (Hitachi Vantara)
IBM Watson Studio
TIMi Suite
Incorta

Le sfide per il futuro: la data preparation a prova di PMI

Le aziende tendono a creare ogni giorno dati in misura crescente. Alcune sono più strutturate per farlo, altre ancora brancolano abbastanza nel buio, non avendo ancora implementato un’adeguata strategia di data management. Il risultato è un fondamentale spreco di risorse, che si traduce nel valorizzare soltanto in parte il tesoro di informazioni che il dato grezzo consentirebbe di raffinare.

Le ragioni di questa barriera culturale e organizzativa nei confronti del dato digitale sono molte. Da un lato stiamo vivendo un periodo di sostanziale transizione e la trasformazione digitale è un processo che non si risolve dall’oggi al domani. Occorre innanzitutto affrontare un autentico change management, orientato ad agire in maniera davvero data-driven, senza finire per riprodurre, sotto una patina semplicemente più moderna, le attività nel modo in cui venivano già implementate nei processi tradizionali.

Servono inoltre competenze di un certo livello in vari ambiti della scienza dei dati, che non è facile ottenere, soprattutto per le PMI. I moderni data preparation tools consentono, almeno in buona parte, di compensare lo skill gap, per consentire almeno di avviare quelle azioni orientate alla qualità dei dati che possono essere atto di una graduale strategia di miglioramento progressivo.

Che il mercato vada in questa direzione, paiono non esserci grandi dubbi. Oltre alle cifre relative al volume d’affari complessivo, che abbiamo citato nel corso del precedente paragrafo, è evidente che il mercato dei data preparation tools sia particolarmente effervescente, almeno a giudicare dalle acquisizioni a cui abbiamo assistito negli ultimi tempi.

Alteryx ha infatti acquisito Trifacta per 400 milioni di dollari, arricchendo un portfolio di cui facevano già parte Hyper Anna, una piattaforma cloud per la generazione di AI-driven insight e Lore IO, una soluzione per data modeling. Una delle particolarità dei prodotti di Trifacta risiede proprio nel fatto di garantire anche a chi non possiede avanzate competenze di sviluppo la possibilità di generare insight utili alle loro rispettive esigenze.

Nel frattempo sono state condotte altre acquisizioni di rilievo ed altre ne arriveranno certamente a breve. IBM ha annunciato l’accordo con Enzivi, brand particolarmente attivo nell’ambito della preparazione e dell’analisi dei dati per il comparto ESG. Enzivi si aggiunge ad una flotta già piuttosto ampia, che comprende tra gli altri IBM Maximo, IBM Sterling, IBM Environmental Intelligence Suite e IBM Turbonomic.