Non sei riuscito a partecipare a Transform 2022? Dai un’occhiata a tutte le sessioni del vertice nella nostra libreria on-demand ora! Guarda qui.


Man mano che le organizzazioni intensificano i loro sforzi per essere veramente guidate dai dati, un numero crescente di persone sta investendo in una nuova architettura di data lakehouse.

Come suggerisce il nome, un data lakehouse combina la struttura e l’accessibilità di un data warehouse con l’archiviazione massiccia di un data lake. L’obiettivo di questa strategia di dati combinati è offrire a ogni dipendente la possibilità di accedere e utilizzare i dati e l’intelligenza artificiale per prendere decisioni aziendali migliori.

Molte organizzazioni vedono chiaramente l’architettura Lakehouse come la chiave per aggiornare i propri stack di dati in modo da fornire maggiore flessibilità e agilità dei dati.

In effetti, un recente sondaggio di Databricks ha rilevato che quasi i due terzi (66%) degli intervistati utilizzano una casa sul lago di dati. E l’84% di coloro che attualmente non ne stanno utilizzando uno, sta cercando di farlo.

eventi

MetaBeat 2022

MetaBeat riunirà leader di pensiero per fornire indicazioni su come la tecnologia metaverse trasformerà il modo in cui tutti i settori comunicano e fanno affari il 4 ottobre a San Francisco, in California.

Registrati qui

“Più aziende stanno implementando data lakehouse perché combinano le migliori caratteristiche sia dei warehouse che dei data lake, offrendo ai data team maggiore agilità e un accesso più semplice ai dati più tempestivi e pertinenti”, afferma Hiral Jasani, senior partner marketing manager di Databricks.

Ci sono quattro ragioni principali per cui le organizzazioni che adottano i modelli di data lakehouse lo fanno, afferma Jasani:

  • Miglioramento della qualità dei dati (citato 50%)
  • Aumento della produttività (citato dal 37%)
  • Consentire una migliore collaborazione (citato dal 36%)
  • Eliminazione dei silos di dati (citati dal 33%)

In che modo la qualità dei dati e l’integrazione influiscono da un’architettura di data lakehouse

Un moderno stack di dati costruito sulla casa sul lago affronta i problemi di qualità e integrazione dei dati. Sfrutta le tecnologie open source, impiega strumenti di governance dei dati e include strumenti self-service per supportare iniziative di business intelligence (BI), streaming, intelligenza artificiale (AI) e machine learning (ML), spiega Jasani.

“Delta Lake, che è un livello di gestione e archiviazione dei dati aperto, affidabile, performante e sicuro per il data lake, è la base e il fattore abilitante di un’architettura per la casa del lago economicamente vantaggiosa e altamente scalabile”, afferma Jasani.

Delta Lake supporta sia le operazioni di streaming che batch, osserva Jasani. Elimina i silos di dati fornendo un’unica casa per i dati strutturati, semi-strutturati e non strutturati. Ciò dovrebbe rendere l’analisi semplice e accessibile in tutta l’organizzazione. Consente ai data team di migliorare in modo incrementale la qualità dei loro dati nella loro casa sul lago fino a quando non sono pronti per il consumo a valle.

“Il cloud svolge anche un ruolo importante nella modernizzazione dello stack di dati”, continua Jasani. “La maggior parte degli intervistati (71%) ha riferito di aver già adottato il cloud su almeno metà della propria infrastruttura dati. E il 36% degli intervistati ha citato il supporto su più cloud come una delle principali capacità critiche di un moderno stack tecnologico di dati”.

In che modo i sistemi in silos e legacy frenano l’analisi avanzata

Le numerose piattaforme SaaS su cui le organizzazioni fanno affidamento oggi generano grandi volumi di dati approfonditi. Questo può fornire un enorme vantaggio competitivo se gestito correttamente, afferma Jasani. Tuttavia, molte organizzazioni utilizzano architetture legacy in silos che possono impedire loro di ottimizzare i propri dati.

“Quando business intelligence (BI), streaming di dati, intelligenza artificiale e machine learning vengono gestiti in stack di dati separati, ciò aggiunge ulteriore complessità e problemi con la qualità dei dati, la scalabilità e l’integrazione”, sottolinea Jasani.

Gli strumenti legacy non sono in grado di scalare per gestire la crescente quantità di dati e, di conseguenza, i team trascorrono una notevole quantità di tempo a preparare i dati per l’analisi piuttosto che ricavare informazioni dai propri dati. In media, il sondaggio ha rilevato che gli intervistati hanno dedicato il 41% del loro tempo totale a progetti di analisi dei dati dedicati all’integrazione e alla preparazione dei dati.

Inoltre, imparare a differenziare e integrare le capacità di data science e machine learning nello stack IT può essere difficile, afferma Jasani. L’approccio tradizionale di alzare uno stack separato solo per i carichi di lavoro di intelligenza artificiale non funziona più a causa della maggiore complessità della gestione della replica dei dati tra piattaforme diverse, spiega.

I problemi di scarsa qualità dei dati riguardano quasi tutte le organizzazioni

La scarsa qualità dei dati e problemi di integrazione dei dati possono avere gravi ripercussioni negative sull’azienda, conferma Jasani.

“Quasi tutti gli intervistati (96%) hanno riportato effetti negativi sul business a causa delle difficoltà di integrazione dei dati. Questi includono una produttività ridotta a causa dell’aumento del lavoro manuale, dati incompleti per il processo decisionale, problemi di costi o di budget, dati intrappolati e inaccessibili, mancanza di un modello coerente di sicurezza o governance e una scarsa esperienza del cliente”.

Inoltre, ci sono rischi a lungo termine di danni aziendali ancora maggiori, inclusi clienti disimpegnati, opportunità perse, erosione del valore del marchio e, in definitiva, decisioni aziendali sbagliate, afferma Jasani.

In relazione a questo: i data team stanno cercando di implementare il moderno stack di dati per migliorare la collaborazione (citato dal 46%). L’obiettivo è avere un flusso libero di informazioni e consentire l’alfabetizzazione e la fiducia dei dati in un’organizzazione.

“Quando i team possono collaborare con i dati, possono condividere metriche e obiettivi per avere un impatto nei loro dipartimenti. L’uso di tecnologie open source favorisce anche la collaborazione in quanto consente ai professionisti dei dati di sfruttare le competenze che già conoscono e utilizzare gli strumenti che amano”, afferma Jasani.

“Sulla base di ciò che stiamo vedendo sul mercato e ascoltando dai clienti, la fiducia e la trasparenza sono sfide culturali che quasi tutte le organizzazioni devono affrontare quando si tratta di gestire e utilizzare i dati in modo efficace”, continua Jasani. “Quando ci sono più copie di dati che vivono in luoghi diversi all’interno dell’organizzazione, è difficile per i dipendenti sapere quali sono i dati più recenti o più accurati, con conseguente mancanza di fiducia nelle informazioni”.

Se i team non possono fidarsi o fare affidamento sui dati loro presentati, non possono estrarre informazioni significative in cui si sentono sicuri, sottolinea Jasani. I dati archiviati in diverse funzioni aziendali creano un ambiente in cui diversi gruppi aziendali utilizzano set di dati separati, quando tutti dovrebbero lavorare da un’unica fonte di verità.

Modelli Data Lakehouse e strumenti di analisi avanzati

Le organizzazioni che generalmente prendono in considerazione la tecnologia delle case sul lago sono quelle che desiderano implementare strumenti di analisi dei dati più avanzati. È probabile che queste organizzazioni gestiscano molti formati diversi per i dati grezzi su uno storage poco costoso. Ciò lo rende più conveniente per gli usi ML/AI, spiega Jasani.

“Un data lakehouse costruito su standard aperti offre il meglio dei data warehouse e dei data lake. Supporta diversi tipi di dati e carichi di lavoro di dati per analisi e intelligenza artificiale. Inoltre, un repository di dati comune consente una maggiore visibilità e controllo del proprio ambiente di dati in modo che possano competere meglio in un mondo digital-first. Questi investimenti basati sull’intelligenza artificiale possono rappresentare un aumento significativo delle entrate e una migliore esperienza di clienti e dipendenti”, afferma Jasani.

Per raggiungere queste capacità e affrontare le sfide dell’integrazione e della qualità dei dati, gli intervistati hanno riferito che intendono modernizzare i loro stack di dati in diversi modi. Questi includono l’implementazione di strumenti per la qualità dei dati (citati dal 59%), tecnologie open source (citati dal 38%), strumenti di governance dei dati (citati dal 38%) e strumenti self-service (citati dal 38%).

Uno dei primi passi importanti per la modernizzazione di uno stack di dati è costruire o investire in un’infrastruttura che assicuri ai data team l’accesso ai dati da un unico sistema, in modo che tutti lavoreranno sulle stesse informazioni aggiornate.

“Per prevenire i silos di dati, un data lakehouse può essere utilizzato come una singola casa per dati strutturati, semi-strutturati e non strutturati, fornendo una base per uno stack di dati moderno ed economico e scalabile”, osserva Jasani. “Le aziende possono eseguire carichi di lavoro Al/ML e BI/analytics direttamente sul loro data lakehouse, che funzionerà anche con storage, dati e cataloghi esistenti in modo che le organizzazioni possano basarsi sulle risorse attuali pur disponendo di un modello di governance a prova di futuro”.

Ci sono anche diverse considerazioni che i leader IT dovrebbero tenere in considerazione nella loro strategia per modernizzare il loro stack di dati, spiega Jasani. Hanno incluso se desiderano un servizio gestito o autogestito, affidabilità del prodotto per ridurre al minimo i tempi di inattività, connettori di alta qualità per garantire un facile accesso a dati e tabelle, servizio clienti tempestivo e supporto e capacità di prestazioni del prodotto per gestire grandi volumi di dati.

Inoltre, i leader dovrebbero considerare l’importanza di piattaforme aperte ed estensibili che offrano integrazioni semplificate con i loro strumenti dati preferiti e consentano loro di connettersi ai dati ovunque essi risiedano, raccomanda Jasani.

Infine, Jasani afferma che “è necessario un sistema flessibile e ad alte prestazioni che supporti varie applicazioni di dati tra cui analisi SQL, streaming in tempo reale, scienza dei dati e apprendimento automatico. Uno dei passi falsi più comuni consiste nell’utilizzare più sistemi: un data lake, data warehouse separati e altri sistemi specializzati per lo streaming, l’analisi delle immagini, ecc. Avere più sistemi aggiunge complessità e impedisce ai data team di accedere ai dati giusti per i loro casi d’uso.

Leave a Comment