Per rafforzare ulteriormente il nostro impegno nel fornire una copertura leader del settore della tecnologia dei dati, VentureBeat è entusiasta di accogliere Andrew Brust e Tony Baer come collaboratori regolari. Guarda i loro articoli nella pipeline di dati.
risolutoreLa proposta di valore di è interessante, in particolare per coloro che hanno esigenze di streaming di dati, data lake e data lakehouse e mancano di data engineer esperti. È l’argomento di un libro pubblicato di recente dal CEO di Upsolver, Ori Rafael, Sblocca dati complessi e in streaming con pipeline di dati dichiarativi.
Invece di codificare manualmente le pipeline di dati e le loro numerose complessità, puoi semplicemente dichiarare quale tipo di trasformazione è richiesta dall’origine alla destinazione. Pertanto, il motore sottostante gestisce la logistica di farlo in gran parte automatizzato (con l’input dell’utente come desiderato), convogliando i dati di origine in un formato utile per gli obiettivi.
Alcuni potrebbero chiamarla magia, ma è molto più pratica.
“Il fatto che tu stia dichiarando la tua pipeline di dati, invece di codificare manualmente la tua pipeline di dati, ti fa risparmiare circa il 90% del lavoro”, ha detto Rafael.
eventi
MetaBeat 2022
MetaBeat riunirà leader di pensiero per fornire indicazioni su come la tecnologia metaverse trasformerà il modo in cui tutti i settori comunicano e fanno affari il 4 ottobre a San Francisco, in California.
Registrati qui
Di conseguenza, le organizzazioni possono dedicare meno tempo alla creazione, al test e alla manutenzione delle pipeline di dati e più tempo a raccogliere i vantaggi della trasformazione dei dati per i loro casi d’uso particolari. Con le applicazioni odierne che coinvolgono sempre più analisi a bassa latenza e sistemi transazionali, la riduzione dei tempi di intervento può avere un impatto significativo sul ROI dei processi basati sui dati.
La complessità sottostante delle pipeline di dati
Per chi non lo sapesse, ci sono numerosi aspetti delle pipeline di dati che possono sembrare contorti o complicati. Le organizzazioni devono tenere conto dei diversi aspetti dello schema, dei modelli di dati, della qualità dei dati e altro ancora con quelli che spesso sono dati di eventi in tempo reale, come quelli per i consigli di e-commerce. Secondo Rafael, queste complessità sono prontamente organizzate in tre categorie: orchestrazione, gestione del file system e scalabilità. Upsolver fornisce automazione in ciascuna delle seguenti aree:
- Orchestrazione: I rigori di orchestrazione delle pipeline di dati non sono banali. Implicano la valutazione del modo in cui i singoli lavori influiscono su quelli a valle in una rete di descrizioni di dati, metadati e informazioni tabulari. Queste dipendenze sono spesso rappresentate in un grafico aciclico diretto (DAG) la cui compilazione richiede molto tempo. “Stiamo automatizzando il processo di creazione del DAG”, ha rivelato Rafael. “Non dover lavorare per eseguire i DAG da soli è un grande risparmio di tempo per gli utenti”.
- Gestione del file system: Per questo aspetto delle pipeline di dati, Upsolver può gestire aspetti del formato del file system (come quello di Oracle, ad esempio). Ci sono anche sfumature di compressione dei file in dimensioni utilizzabili e sincronizzazione del livello dei metadati e del livello dei dati, tutto ciò che Upsolver fa per gli utenti.
- Scala: I molteplici aspetti dell’automazione che mantengono la scalabilità per la pipeline dei dati includono il provisioning delle risorse per garantire prestazioni a bassa latenza. “Devi avere abbastanza cluster e infrastrutture”, ha spiegato Rafael. “Quindi ora, se prendi un grande [surge]sei già pronto per gestirlo, invece di iniziare a girare [resources].”
Integrazione dei dati
Oltre all’avvento del cloud computing e alla distribuzione delle risorse IT al di fuori delle quattro mura delle organizzazioni, il driver più significativo della pipeline di dati è l’integrazione e la raccolta dei dati. In genere, non importa quanto sia efficace una fonte di dati in streaming (come gli eventi in un argomento Kafka che illustrano il comportamento degli utenti), il suo vero merito sta nel combinare quei dati con altri tipi per una visione olistica. I casi d’uso per questo vanno dall’adtech alle applicazioni mobili e alle implementazioni di software-as-a-service (SaaS). Rafael ha articolato un caso d’uso per un provider SaaS di business intelligence, “con molti utenti che stanno generando centinaia di miliardi di log. Vogliono sapere cosa stanno facendo i loro utenti in modo da poter migliorare le loro app”.
Le pipeline di dati possono combinare questi dati con i record storici per una comprensione completa che alimenta nuovi servizi, funzionalità e punti di interazione con i clienti. L’automazione della complessità dell’orchestrazione, della gestione dei file system e del ridimensionamento di tali pipeline di dati consente alle organizzazioni di passare dalle origini ai requisiti aziendali per stimolare l’innovazione. Un altro aspetto dell’automazione gestito da Upsolver è l’indicizzazione di data lake e data lakehouse per supportare la pipeline di dati in tempo reale tra le origini.
“Se sto guardando un evento su un utente nella mia app in questo momento, andrò all’indice e dirò all’indice cosa so di quell’utente, come si comportava quell’utente prima?” ha detto Raffaele. “Lo prendiamo dall’indice. Poi potrò usarlo in tempo reale”.
Ingegneria dei dati
I componenti principali di Upsolver per rendere le pipeline di dati dichiarative anziché complicate includono il motore di streaming, l’indicizzazione e l’architettura. Il suo approccio pronto per il cloud comprende “una piattaforma di pipeline di dati per il cloud e… l’abbiamo resa disaccoppiata in modo che elaborazione e archiviazione non dipendessero l’una dall’altra”, ha osservato Rafael.
Tale architettura, con l’automazione fornita dagli altri aspetti della soluzione, ha il potenziale per rimodellare l’ingegneria dei dati da una disciplina noiosa e dispendiosa in termini di tempo a una che libera gli ingegneri dei dati.
Leave a Comment