Dati, ancora dati, nient’altro che dati. La progressiva digitalizzazione dei processi sta trasformando le aziende in vere e proprie banche dati, in cui destreggiarsi in quella che dovrebbe essere un’adeguata data governance risulta tutt’altro che semplice, se non si dispone di un’adeguata organizzazione e di opportuni strumenti per metterla in pratica.

Il data lineage è probabilmente uno dei termini meno noti nel ricco glossario della data science, eppure la sua attività risulta tra le più importanti per conoscere l’origine e il comportamento dei dati di cui disponiamo, dal momento in cui entrano a far parte dei nostri sistemi IT.

Al termine della lettura del presente articolo ci piacerebbe essere dei professionisti più consapevoli circa l’utilità e le buone prassi che occorrono per implementare una seria attività di data lineage in una pipeline di data management aziendale. Soltanto così potremo conoscere meglio i dati a nostra disposizione, gestirli e sfruttarli in maniera opportuna e, in generale, lavorare in maniera più efficiente quando si tratta di analizzarli a fondo.

Se implementato in maniera consapevole e tecnologicamente evoluto, il data lineage consente di lavorare con una qualità progressivamente sempre più elevata sui dati, nella direzione di rendere l’azienda data-driven nei fatti, oltre che nelle effervescenti visioni del marketing.

Cos’è il data lineage

Il data lineage è una disciplina che consente di tracciare l’intero ciclo di vita dei dati, dalla loro origine a tutte le trasformazioni che intervengono nei sistemi aziendali. Esistono varie definizioni, ma nella sostanza è sufficiente sapere che il data lineage si identifica con la derivazione e la tracciabilità dei dati nel tempo.

Fatta questa semplice premessa, procediamo col dire che il termine viene mantenuto nella sua forma anglosassone, ma potrebbe essere localizzato come discendenza o lignaggio, nel senso che esprime una linea di discendenza dei dati simile alla concezione di un albero genealogico. Tale figurazione esprime in maniera sia metaforica che pratica l’evoluzione storica dei dati, dall’origine alla cronologia di tutti i movimenti, le caratteristiche e le qualità dei dati presenti nei sistemi aziendali.

Se la data governance di un’azienda è implementata su buone procedure di data lineage, i professionisti che hanno a che fare a vario titolo con i dati possono avere a disposizione tutte le informazioni necessarie per identificarli e gestirli nel modo migliore. Come vedremo, ciò accade soprattutto grazie alla presenza dei metadati e contribuisce a creare tra il personale quella cultura del dato essenziale per valorizzare il patrimonio informativo di cui l’azienda dispone.

I due elementi principali del data lineage sono pertanto l’origine e il cambiamento dei dati, utile, quest’ultimo, a descrivere come, dove e perché i dati sono stati soggetti a determinate trasformazioni. Tale visibilità sulla supply chain del dato, nell’epoca in cui il digitale galoppa senza freni, genera una serie di vantaggi, di cui ci occuperemo a breve, non prima di aver posto l’attenzione su un ulteriore aspetto.

Data Lineage - Immagine che richiama il tracciamento dei dati. La Data Lineage, infatti, è una disciplina che consente di tracciare l’intero ciclo di vita dei dati, dalla loro origine a tutte le trasformazioni che intervengono nei sistemi aziendali
Il Data Lineage consente di tracciare la linea evolutiva dei dati, ossia di tenere la traccia storica di essi lungo tutto il loro ciclo di vita, dall’origine a tutte le trasformazioni che subiscono ed i passaggi che compiono

Ancor prima di entrare nel merito dello scopo pratico e delle funzionalità del data lineage, sarebbe saggio ed opportuno chiederci, a livello puramente concettuale, quali siano le ragioni per cui abbia senso investire, spesso anche risorse tutt’altro che trascurabili, per conoscere e comprendere la storia dei dati.

Un esempio spesso utilizzato per divulgare i principi di base della data lineage è quello del passaporto. Si, proprio quello che utilizziamo per viaggiare e spostarci nei vari continenti. Su questo celebre e prezioso documento ritroviamo varie informazioni, come i paesi che abbiamo visitato, quando abbiamo ottenuto i visti, quando sono avvenute le validazioni di ingresso, timbro dopo timbro. Insomma, per farla breve, un passaporto traccia tutti i nostri movimenti, offrendo almeno i dettagli delle località e della cronologia degli spostamenti.

Allo stesso modo, il tracciamento dei dati esprime il loro viaggio all’interno dei sistemi aziendali, attraverso una mappa che può essere consultata in qualsiasi momento per trovare la corretta via nella loro gestione e nella loro analisi.

Lo scopo e i vantaggi del lineage

Il data lineage traccia l’evoluzione storica dei dati per supportare vari obiettivi funzionali al business, sia di natura operazionale che di carattere organizzativo. In primo luogo, contribuisce alla data quality in termini di misurazione e controllo delle informazioni. Maggiore è la conoscenza dei dati, più agevole risulta la loro governance, attraverso tutte le operazioni che vengono effettuate durante il loro ciclo di vita.

In sintesi, la data lineage ha lo scopo di:

  • Acquisire informazioni dettagliate in merito all’origine dei dati, cosa li ha generati, da quali fonti sono stati acquisiti e come sono stati inizialmente archiviati nei sistemi di gestione;
  • Tracciare nel dettaglio qualsiasi movimento e attività sui dati svolta all’interno dei sistemi aziendali;
  • Avere una visibilità puntuale circa l’effettivo utilizzo dei dati nei sistemi aziendali, in merito a quali applicazioni li impiegano e quali processi vengono direttamente e indirettamente influenzati dalla loro trasformazione;
  • Avere una visibilità sulle interazioni e sulle correlazioni tra i dati (nelle loro varie implementazioni) e i sistemi aziendali;
  • Valutare e approfondire gli impatti che le trasformazioni dei dati generano sui processi;

Tali scopi si traducono in maniera piuttosto intuitiva in altrettanti vantaggi, focalizzati nel generale incremento della data quality. È altresì utile rilevare, senza eccessivi indugi, che il data lineage è in grado di generare significativi benefici anche nel contesto dell’analisi dei dati, il momento cruciale per estrarre valore informativo dal dato grezzo, risorsa vitale per le sorti di un’azienda digitale, che viene progressivamente raffinata nel corso del suo ciclo di vita:

  • Rilevamento degli errori: il tracciamento dei dati rende molto più semplice scoprire gli eventuali errori e criticità nei processi di gestione e trasformazione che possono aver condizionato negativamente la qualità di un data set, ai fini di intervenire in maniera correttiva, evitando analisi i cui risultati potrebbero risultare inattendibili, fuorvianti o viziati da bias di varia natura. Il tracciamento del flusso dei dati è inoltre capace di rilevare e risolvere quei colli di bottiglia destinati a causare inevitabili cali di performance, soprattutto quando si opera su grandi quantità di dati.
  • Valutazione degli impatti: il data lineage consente di valutare gli impatti sui processi e sulle applicazioni aziendali attraverso la lettura della storia dei dati utilizzati nelle loro attività, ad esempio attraverso le loro trasformazioni. I dati diventano un elemento di misurazione e volendo l’unità di misura stessa della qualità delle operazioni;
  • Gestione, trattamento e protezione dei dati: la storia dei dati, per propria natura, descrive tutte le informazioni necessarie per avere la completa visibilità sul loro trattamento all’interno dei sistemi aziendali, sin dal momento della loro acquisizione. Il tracciamento effettuato dal data lineage rappresenta un elemento fondamentale per valutare la rispondenza dell’utilizzo dei dati con quanto disposto dalle normative, come nel caso del GDPR, oltre a sviluppare una coscienza pratica sulla protezione dei dati stessi.

I responsabili del data lineage in azienda

Dopo aver visto, seppur nei tratti essenziali, in cosa consiste e a cosa può risultare utile il data lineage in un contesto aziendale in cui si ha un certo scrupolo per la governance dei dati, rimane da chiedersi chi debba essere il responsabile di tutto ciò: colui a cui dare inesorabilmente la colpa quando ci si ritrova al cospetto di dati caotici, ingestibili e del tutto inutili ai fini di qualsiasi processo analitico.

È evidente come tale mansione spetti ai responsabili della data governance, chiamati a redigere puntualmente la documentazione che attesta appunto la storia dei dati presenti nei sistemi aziendali. L’ideale sarebbe costituire un’unità operativa capace di coinvolgere sia i professionisti dei dati che i responsabili delle varie linee di business presenti in azienda, in modo da avere un riscontro tangibile tra le tecniche di gestione e l’utilizzo pratico dei dati nelle attività quotidiane, per misurare in maniera consapevole la data quality, elemento fondamentale per garantire la buona efficienza di qualsiasi processo di analisi dei dati. I principi che consentono di gestire in maniera concreta il data lineage non si discostano dai criteri che regolano la data governance stessa.

Qualora l’azienda non disponesse di figure adeguate ad assicurare un corretto governo dei dati, dovrebbe avvalersi di professionisti specializzati ed esperti in tali mansioni, cercandoli nel mercato della consulenza IT. Il data lineage consente di acquisire uno storico utile per misurare i progressi generali nell’utilizzo dei dati, a cominciare dalla formazione interna dei dipendenti, sempre più centrale per utilizzare al meglio le risorse digitali, e quindi i dati stessi.

Il classico errore da non fare è quello di demandare in toto tali attività al generico reparto IT, se sprovvisto di figure specializzate nella gestione e nell’analisi dei dati. Non si tratta soltanto di possedere le capacità tecniche nell’utilizzo dei tool di data lineage, ma di possedere l’indispensabile know-how nei dati indispensabile per avere una visione d’insieme sull’intera pipeline di data management: nello specifico, di metadata management.

Alcune tecniche ed esempi di utilizzo

Per quanto riguarda gli aspetti tecnici che fanno riferimento al data lineage, l’asset di riferimento è costituito dai metadati, ossia tutte le informazioni relative ai dati stessi, che consentono di descrivere le loro caratteristiche e la loro evoluzione storica: formato, struttura, dominio, campi e molte altre voci che consentono di estrarre facilmente informazioni dai dati attraverso delle semplici query, a patto ovviamente che i metadati siano organizzati e gestiti in maniera efficiente.

Uno degli obiettivi pratici del data lineage consiste proprio in questo, senza trascurare gli aspetti di natura organizzativa che fanno direttamente riferimento ai dati (policy, normative, processi, ecc.).

Grazie al data lineage, ed in particolare al metadata management, diventa possibile stabilire un nesso ed effettuare un tracciamento continuo tra gli aspetti di business e quelli puramente operativi che si svolgono ogni giorno all’interno di un’azienda. Il risultato di questo continuo processo mira a garantire una elevata visibilità per quanto concerne l’utilizzo dei dati all’interno di ciascuna organizzazione, dalla loro origine al modo e alle tempistiche con cui vengono utilizzati nei processi che li vedono coinvolti, rimarcando ancora una volta l’attenzione sulla fondamentale attività costituita dall’analisi dei dati.

Una buona gestione dei metadati a sua volta non può che riflettersi in un generale miglioramento della data quality. Se tale aspetto è solitamente demandato alle figure più tecniche, il fatto di conoscerne la storia consente di rendere più accessibile la materia ad un pubblico più ampio, ad esempio coinvolto per ragioni di carattere normativo, come nel caso della finanza o dell’industria farmaceutica. Tali business devono necessariamente tracciare rispettivamente I flussi finanziari e gli aspetti legati alla filiera del farmaco, per garantirne l’autenticità.

Ci sono davvero moltissimi aspetti che coinvolgono il data lineage nel mondo enterprise, al punto che qualcuno potrebbe non conoscere il glossario della data science, pur ritrovandosi ad utilizzarlo praticamente ogni giorno.

L’ambito della sanità è senza dubbio uno dei più sensibili rispetto al tracciamento dei dati, date le stringenti normative che lo regolano. Nel caso delle cartelle cliniche, il rispetto della privacy costituisce uno dei nodi cruciali, per cui è obbligatorio sapere chi accede ai dati, quando e con quali informazioni vengono aggiornati. Il data lineage in questo contesto assume una connotazione praticamente nativa, data l’esigenza di tracciare ogni passaggio relativo alla storia clinica di ogni paziente.

Durante la pandemia Covid-19 un utilizzo ricorrente del data lineage è stato rappresentato dal sequenziamento genetico che i virologi effettuano per tracciare il virus e le sue mutazioni, combinando i dati a disposizione per comprendere al meglio la natura dei focolai, determinando ad esempio se hanno avuto origine a livello locale o a causa di infezioni provenienti dall’estero. Si tratta del famoso tracciamento del virus che ha spesso animato il dibattito dei virologi nel circo mediatico. Nella sua componente informatica, il tracciamento virale costituisce un esempio pratico di data lineage di grandissima attualità.

Nel più ordinario e generico contesto aziendale, i dati vengono continuamente spostati attraverso i sistemi di gestione predisposti per tale scopo, come i data warehouse, e di buona norma sottoposti a un processo ETL (Extract, Transform and Load), utile a prepararli per garantire una elevata data quality in funzione di un’analisi dei dati particolarmente efficiente. Il data lineage consente di tracciare il ciclo di vita dei dati, adempiendo ad una necessità che, in molti casi, sta diventando un vero e proprio obbligo per le aziende che, per la natura della loro attività o dei dati trattati, sono tenute a rispettare le particolari condizioni previste dai disposti normativi vigenti (GDPR, NIS, ecc.), per non incorrere nel rischio di pesanti sanzioni e danni reputazionali.

I tool utilizzati per il data lineage

Come abbiamo avuto modo di analizzare, uno dei vantaggi che il data lineage consente di implementare in azienda è data dalla facilità di risolvere errori legati all’utilizzo dei dati. Grazie alla visibilità della loro evoluzione storica, è possibile localizzare con una certa facilità il problema e risolverlo mitigando le conseguenze o evitando di trascinarsi situazioni di data quality poco promettenti ai fini dell’analisi dei dati.

Inoltre, la conoscenza favorisce a migliorare i processi di conoscenza. Se ci si rendesse conto di un problema ricorrente in una determinata situazione, si potrebbe approfondire un monitoraggio in quel frangente, per individuare la causa e correggerla fino a quando la criticità non viene definitivamente risolta. Tale approccio risulta alla lunga decisamente più efficiente rispetto all’intervento puntuale sui singoli errori. Operando in questo modo, gli specialisti della data governance possono dare corpo ad effettive strategie di miglioramento progressivo per quanto concerne la qualità dei dati.

Per nostra fortuna, nel 2022, tali operazioni non vengono più effettuate manualmente, grazie ad una serie di tool in grado di automatizzare gran parte delle procedure utili al data lineage. Essi agiscono su vari aspetti avendo quale riferimento il tracciamento dei dati lungo l’intero ciclo di vita. Un aspetto essenziale è dato dalla capacità del software di gestire grandi numeriche e incrociare le correlazioni tra le variabili attraverso i dati contenuti nello storico, ad esempio per le analisi di impatto di cui abbiamo parlato in precedenza.

Non abbiamo a che fare con una visione statica del dato. La concezione è assolutamente dinamica, in continua evoluzione e necessita di strumenti in grado di effettuare un tracciamento in tempo reale. Ciò è possibile anche grazie all’ausilio di moderne tecniche di apprendimento automatico e strumenti di data visualization, capaci di rendere immediata ed intuitiva la lettura della situazione relativa ai dati che intendiamo conoscere e comprendere al meglio.

Grazie ai tool di data lineage è possibile mappare un’enorme quantità di dati attraverso un lungo periodo di tempo, organizzando lo storico in modo da poterlo interrogare con facilità in qualsiasi momento, assicurandosi ad esempio che il formato dei file rimanga compatibile a seguito di modifiche ai processi e alle applicazioni, ed innumerevoli altre circostanze che fanno parte della quotidianità operativa di un’azienda.

È evidente come la collezione manuale dei metadati non avrebbe alcun senso, sia in termini di efficienza che di onerosità, senza considerare i rischi derivanti dall’errore umano in contesti in cui si effettuano molte attività di business analytics e business intelligence. I tool di data lineage automatizzano i processi e consentono agli specialisti dei dati di supervisionare il loro operato in maniera estremamente più comoda e redditizia rispetto alla condizione che li vorrebbe attivi in prima persona sul tracciamento dei dati.

Tra le principali funzioni che i tool di data lineage svolgono possiamo citare:

  • Aggregazione dei metadati nel repository centralizzato (es. data warehouse);
  • Unificazione dei formati dei medadati provenienti da differenti sistemi;
  • Connessione con le principali fonti di dati e le tecnologie più diffuse per esplorare il contenuto dei metadati e collezionarli secondo le operazioni di data governance preimpostate;
  • Visualizzazione end-to-end dello storico relativo alla mappatura del flusso dei dati all’interno dei sistemi aziendali durante il loro intero ciclo di vita;
  • Presentazioni e altre procedure utili a facilitare la comprensione dei metadati ai fini di validare le loro descrizioni;
  • Rappresentazione della data lineage con i più evoluti strumenti di data visualization disponibili;
  • Gestione delle API per integrare direttamente i tool di data lineage con altri software chiamati ad interagire con i dati presenti sui sistemi aziendali;
  • Visibilità dei dati in funzione del loro utilizzo all’interno dei processi aziendali;
  • Motore di ricerca ottimizzato per la visibilità del tracciamento del flusso dei dati a partire dal loro punto di origine;

Dal punto di vista commerciale esistono moltissime soluzioni in grado di gestire e documentare in vari modi la data lineage. In verità, spesso e volentieri le ritroviamo presenti all’interno delle principali piattaforme di data management. L’offerta è molto ampia, in quanto spazia dalle soluzioni dei big player (Microsoft, IBM, Oracle, SAP, ecc.) a ISV come Collibra, Erwin, Infogix e Talend, spesso specializzati in alcuni ambiti della data governance, o specialisti nel metadata management come Octopai.

Non esiste, a priori, una soluzione migliore di un’altra. Occorre analizzare nello specifico lo stato dei dati in ciascuna realtà aziendale e provvedere di conseguenza ad individuare le soluzioni tecnologiche più idonee a soddisfare gli obiettivi di business, senza perdere mai d’occhio tutte le condizioni di fattibilità, a partire dal budget a disposizione.

Una considerazione a parte va inoltre fatta per quanto concerne il contributo cross tecnologico che i tool di data lineage di moderna concezione sono in grado di implementare. Abbiamo già fatto riferimento all’Intelligenza Artificiale e al Machine Learning, nel contesto dell’analisi dei dati, ma non possiamo trascurare il potenziale di una tecnologia emergente, ancora poco diffusa a livello commerciale, ma perfetta in termini di design per supportare la tracciabilità dei dati. Stiamo ovviamente parlando della blockchain.