Sistemi ideali per gestire i Big data grezzi, i data lake stanno trovando sempre più apprezzamento in vari settori per le loro caratteristiche, che li diversificano dai data warehouse


Data Lake (DL) si sta affermando come l’infrastruttura più interessante per gestire i dati, soprattutto i big data, in maniera efficiente e in real time. L’uso crescente dell’IoT ha ulteriormente reso urgente la necessità del loro uso. Non è un caso, quindi che il mercato generato dai Data Lake, valutato 3,74 miliardi di dollari nel 2020, dovrebbe raggiungere 17,60 miliardi di dollari entro il 2026, secondo Research and Markets.

L’aumento della digitalizzazione sta generando un’enorme quantità di dati in ogni comparto. Per integrarli, il settore bancario, per esempio, ha aumentato la richiesta di Data Lake, attraverso vari domini, per creare un database centrale. L’aumento dei pagamenti digitali da parte dei consumatori ha aumentato la quantità di dati memorizzati presso le banche con ogni transazione. Quindi, le opportunità per la big data analytics stanno crescendo e con essa la necessità di infrastrutture in grado di gestirle. Un esempio: la Mox Bank Limited (Mox), una delle banche in più rapida crescita di Hong Kong ha acquisito oltre 35mila clienti e la sua base di clienti ha continuato a crescere, così come il volume dei dati dei clienti generati di conseguenza. La banca utilizza le soluzioni di Amazon Web Services, utilizzando i Data Lake alimentati dalla stessa AWS.

L’industria 4.0 si sta evolvendo a un ritmo assai dinamico, adottando nuove soluzioni che spaziano da quelle IoT e IIoT all’intelligenza artificiale, dovendo gestire quantitativi di dati sempre più voluminosi. Così i DL sono diventati un componente chiave dell’architettura dei dati in molte imprese. Le aziende li usano principalmente come piattaforma per l’analisi dei big data e altre applicazioni di data science che richiedono grandi volumi di dati e coinvolgono tecniche di analisi avanzate, come il data mining, la modellazione predittiva e il machine learning.

Cos’è un Data Lake

Letteralmente “lago di dati”, i Data Lake sono repository per grandi volumi di dati, indipendentemente dalla loro fonte e struttura. Essi sono luogo dove raccogliere dati strutturati, semi-strutturati e non strutturati. Proprio come i laghi, luoghi di raccolta d’acqua da diversi affluenti, con dimensioni, caratteristiche e portata differenti.

Il concetto di DL è stato coniato per la prima volta nel 2010 da James Dixon, fondatore e Chief Technical Officer di Pentaho, come una soluzione capace di gestire i dati grezzi e in maniera nettamente più agile, rapida ed efficiente rispetto ai data warehouse o ai data mart (database strutturato in base all’argomento).

I DL forniscono una base per la data science e le applicazioni di analisi avanzate. Consente ai data scientist e ad altri utenti di creare modelli, applicazioni di analisi e query.

Così facendo, permettono a imprese ed enti di gestire le operazioni aziendali in modo più efficace e rapido, identificando le tendenze e le opportunità di business. Per esempio, un’azienda può usare modelli predittivi sul comportamento d’acquisto dei clienti per migliorare le proprie campagne pubblicitarie e di marketing online. Le analisi svolte in data lake possono anche aiutare a migliorare il risk management, al rilevamento delle frodi, nella manutenzione delle attrezzature e in altre funzioni aziendali.

I vantaggi

I Data Lake si fanno apprezzare per la natura stessa della loro struttura e funzione. Non avendo una struttura, una forma o una composizione rigida, permettono la raccolta di tutti i tipi di dati, che possono essere raccolti contemporaneamente da tutti i tipi di dispositivi, come macchine, reti IoT, sensori e punti di accesso WiFi. Vengono memorizzati in un unico luogo, nel loro formato originale e grezzo, senza alcuna elaborazione, organizzazione o filtraggio.

D’altra parte, poiché non supporta alcuna struttura o schema definito, gli insiemi raccolti possono essere facilmente modificati, senza imporre alcun rischio che la conservazione sia compromessa. Inoltre, offrono una grande flessibilità nell’estrazione dei dati. Così, se un particolare data set viene estratto dal DL per l’analisi, la copia grezza dello stesso set continua a essere memorizzata nel cloud, dove è di nuovo accessibile e raggiungibile, se necessario.

Un altro vantaggio offerto dai “laghi di dati”, specie alle realtà commerciali attive in ambito Industry 4.0 è il fatto che tutti i dati raccolti, e memorizzati, sono completamente accessibili a tutti gli stakeholder interni dell’organizzazione. In altre parole, apre le porte alla data democratization. Ciò significa che garantisce l’accesso a tutti gli attori aziendali, non solo a livello centrale, ma anche, nelle grandi imprese, ai dipartimenti, ai supervisori delle macchine, ai team leader e ai partner. Così si facilita la comunicazione all’interno dell’impresa, ottimizzando i compiti nei vari plessi, centrali e locali.

L’architettura di un Data Lake

Un Data Lake è una struttura che conserva una grande quantità di dati grezzi nel suo formato nativo fino a quando non è necessario per le applicazioni di analisi. Mentre un Data Warehouse tradizionale li memorizza in dimensioni gerarchiche e tabelle, un DL utilizza un’architettura piatta per memorizzarli, principalmente in file o in storage a oggetti. Questo dà agli utenti una maggiore flessibilità sulla gestione, lo stoccaggio e l’utilizzo dei dati.

Sono tre i principi architettonici che caratterizzano i Data Lake, differenziandoli dai data repository tradizionali. Primo: “nessun dato deve essere respinto”. Tutto ciò che viene raccolto dai sistemi sorgente può essere caricato e conservato in un DL. Secondo: i dati possono essere memorizzati in uno stato non trasformato o quasi, come sono stati ricevuti dal sistema sorgente.

Terzo: i dati vengono successivamente trasformati e inseriti in uno schema come necessario in base ai requisiti analitici specifici, un approccio noto come schema-on-read.

Data Lake vs Data Warehouse: le differenze

I due sistemi sono molti differenti. A partire dalle loro caratteristiche peculiari: il Data Lake memorizza tutti i dati indipendentemente dalla fonte e dalla sua struttura, il Data Warehouse memorizza i dati in metriche quantitative con i loro attributi; spesso contengono dati storici che sono stati debitamente “puliti” per adattarsi a uno schema relazionale.

DL, come detto, è un “deposito” che memorizza enormi dati strutturati, semi-strutturati e non strutturati, mentre Data Warehouse è una fusione di tecnologie e componenti che permette l’uso strategico dei dati.

Un’altra fondamentale differenza è che il Data Warehouse definisce lo schema dopo che i dati sono memorizzati, il secondo lo fa prima.

A livello di struttura, i Data Lake sono molto agili: usando hardware di base, la maggior parte può essere riconfigurata ed espansa come necessario per soddisfare le mutevoli esigenze dei dati e le necessità del business. I Data Warehouse sono meno flessibili a causa del loro schema rigido e dei data set preparati.

Entrambi hanno caratteristiche che li fanno apprezzare per determinati impieghi. Per esempio, i DL sono impiegati per archiviare in modo economico grandi quantità di dati da molte fonti. Questo riduce i costi perché i dati sono più flessibili e scalabili in quanto i dati non hanno bisogno di adattarsi a uno schema specifico. Tuttavia, i dati strutturati sono più facili da analizzare perché sono più puliti e hanno uno schema uniforme da cui eseguire le query. Limitando i dati a uno schema, i Data Warehouse sono molto efficienti per analizzare i dati storici per decisioni specifiche sui dati. I Data Lake si fanno apprezzare nel caso di big data analytics in quanto permettono di memorizzare dati non strutturati, che sono più flessibili e scalabili.

Se un’azienda impiega i Data Warehouse per immagazzinare i dati raccolti, questi devono essere pre-filtrati, ottimizzati e strutturati. Pertanto, le informazioni sono già state elaborate e preparate per essere utilizzate per un certo obiettivo. In altre parole, lo scopo dei dati è definito prima che siano raccolti e immagazzinati, tuttavia, questo toglie la possibilità di prendere decisioni in tempo reale sullo scopo dei dati.

Contrariamente ai Data Warehouse, i Data Lake raccolgono e memorizzano informazioni senza uno scopo predefinito. In questo modo, se l’entità commerciale identifica nuove opportunità nel movimento delle sue operazioni, può immediatamente prendere dati coerenti, ma grezzi dal “lago”, e analizzarli secondo il suo obiettivo.