Questo lavoro di Tesi è basato sulla mia esperienza di stage aziendale svoltosi nel corso dell'anno 2020 presso l'azienda italiana Agile Lab, attiva nei campi Big Data, AI e Machine Learning da diversi anni. Il tirocinio svolto mi ha premesso di completare il mio percorso di studi muovendo i primi passi nel mondo della Big Data engineering. Il progetto propostomi mirava a realizzare una componente software da integrare in un framework di streaming processing Big Data open-source sviluppato dall'azienda chiamato Wasp, che, a lavoro ultimato, è stata poi di fatto integrata nel progetto principale ed ad oggi utilizzata in ambiente di produzione. L'obiettivo dunque di questo lavoro è stata la creazione di una nuova feature all'interno di Wasp, chiamata Auto Data Lake, in grado di poter generare in maniera semplice ed automatica un data lake in cui riprodurre i cambiamenti che si verificano all'interno di una base di dati che si decide di monitorare. Tali cambiamenti vengono costantemente catturati e propriamente applicati in tempo reale sul data lake, andando in questo modo a materializzare e persistere su file system una sorta di vista "offline" che sarà sempre in-synch con il database monitorato.

AutoDatalake: un approccio automatizzato per la creazione di data lake basato su Delta Lake e Agilelab Wasp

FERRULLI, MARIO
2019/2020

Abstract

Questo lavoro di Tesi è basato sulla mia esperienza di stage aziendale svoltosi nel corso dell'anno 2020 presso l'azienda italiana Agile Lab, attiva nei campi Big Data, AI e Machine Learning da diversi anni. Il tirocinio svolto mi ha premesso di completare il mio percorso di studi muovendo i primi passi nel mondo della Big Data engineering. Il progetto propostomi mirava a realizzare una componente software da integrare in un framework di streaming processing Big Data open-source sviluppato dall'azienda chiamato Wasp, che, a lavoro ultimato, è stata poi di fatto integrata nel progetto principale ed ad oggi utilizzata in ambiente di produzione. L'obiettivo dunque di questo lavoro è stata la creazione di una nuova feature all'interno di Wasp, chiamata Auto Data Lake, in grado di poter generare in maniera semplice ed automatica un data lake in cui riprodurre i cambiamenti che si verificano all'interno di una base di dati che si decide di monitorare. Tali cambiamenti vengono costantemente catturati e propriamente applicati in tempo reale sul data lake, andando in questo modo a materializzare e persistere su file system una sorta di vista "offline" che sarà sempre in-synch con il database monitorato.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
849820_tesi-marioferrulli-849820.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 4.95 MB
Formato Adobe PDF
4.95 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/153120