Questo lavoro di Tesi è basato sulla mia esperienza di stage aziendale svoltosi nel corso dell'anno 2020 presso l'azienda italiana Agile Lab, attiva nei campi Big Data, AI e Machine Learning da diversi anni. Il tirocinio svolto mi ha premesso di completare il mio percorso di studi muovendo i primi passi nel mondo della Big Data engineering. Il progetto propostomi mirava a realizzare una componente software da integrare in un framework di streaming processing Big Data open-source sviluppato dall'azienda chiamato Wasp, che, a lavoro ultimato, è stata poi di fatto integrata nel progetto principale ed ad oggi utilizzata in ambiente di produzione. L'obiettivo dunque di questo lavoro è stata la creazione di una nuova feature all'interno di Wasp, chiamata Auto Data Lake, in grado di poter generare in maniera semplice ed automatica un data lake in cui riprodurre i cambiamenti che si verificano all'interno di una base di dati che si decide di monitorare. Tali cambiamenti vengono costantemente catturati e propriamente applicati in tempo reale sul data lake, andando in questo modo a materializzare e persistere su file system una sorta di vista "offline" che sarà sempre in-synch con il database monitorato.
AutoDatalake: un approccio automatizzato per la creazione di data lake basato su Delta Lake e Agilelab Wasp
FERRULLI, MARIO
2019/2020
Abstract
Questo lavoro di Tesi è basato sulla mia esperienza di stage aziendale svoltosi nel corso dell'anno 2020 presso l'azienda italiana Agile Lab, attiva nei campi Big Data, AI e Machine Learning da diversi anni. Il tirocinio svolto mi ha premesso di completare il mio percorso di studi muovendo i primi passi nel mondo della Big Data engineering. Il progetto propostomi mirava a realizzare una componente software da integrare in un framework di streaming processing Big Data open-source sviluppato dall'azienda chiamato Wasp, che, a lavoro ultimato, è stata poi di fatto integrata nel progetto principale ed ad oggi utilizzata in ambiente di produzione. L'obiettivo dunque di questo lavoro è stata la creazione di una nuova feature all'interno di Wasp, chiamata Auto Data Lake, in grado di poter generare in maniera semplice ed automatica un data lake in cui riprodurre i cambiamenti che si verificano all'interno di una base di dati che si decide di monitorare. Tali cambiamenti vengono costantemente catturati e propriamente applicati in tempo reale sul data lake, andando in questo modo a materializzare e persistere su file system una sorta di vista "offline" che sarà sempre in-synch con il database monitorato.File | Dimensione | Formato | |
---|---|---|---|
849820_tesi-marioferrulli-849820.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
4.95 MB
Formato
Adobe PDF
|
4.95 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/153120