In recent years, synthetic data generation has experienced rapid growth, becoming a technology of great interest in the fields of machine learning and data privacy. This interest is partly motivated by the need for vast datasets to train machine learning models effectively, ensuring they learn without compromising user privacy. The increasing demand for data leads companies to seek methods for generating data simply and automatically, providing a solution to the problem of data scarcity for training such models. This thesis thus focuses on developing a pipeline for generating synthetic tabular data, with particular emphasis on the CTGAN and TVAE models, considered state-of-the-art in synthetic data generation. The proposed work explores CTGAN and TVAE, analyzing their architectures. Special attention has been given to developing a testing pipeline that evaluates the models' effectiveness in terms of the fidelity of generated data, utility, and, most importantly, privacy. Tests include analyzing the statistical similarity between synthetic and real data, as well as specific assessments of the models' ability to protect sensitive information and prevent the re-identification of individuals in datasets. A crucial aspect addressed in this thesis is the issue of privacy in synthetic data. Despite synthetic data being considered a means to mitigate privacy risks, new challenges emerge regarding the possibility of inferring information about individuals from the generated data. The research underscores the importance of implementing robust privacy by design mechanisms in synthetic data generation models to ensure that data remain useful for analysis while respecting privacy requirements. In conclusion, this thesis presents not only a comprehensive overview of the CTGAN and TVAE models but also a methodology for evaluating and improving synthetic data generation, with a focus on privacy implications.

Negli ultimi anni, la generazione di dati sintetici ha conosciuto una rapida crescita, diventando una tecnologia di grande interesse nel campo del machine learning e della privacy dei dati. Questo interesse è motivato in parte dalla necessità di disporre di vasti set di dati per addestrare modelli di machine learning, in modo che questi ultimi possano apprendere efficacemente senza compromettere la privacy degli utenti. La continua crescita nella domanda di dati porta le aziende a ricercare dei metodi per generare dati in modo semplice e automatizzato, fornendo così una soluzione al problema della scarsità di dati disponibili per l'addestramento di tali modelli. Questa tesi si concentra quindi sullo sviluppo di una pipeline di generazione di dati sintetici tabellari, con un focus particolare sui modelli CTGAN e TVAE, ritenuti tra i modelli allo stato dell'arte della generazione di dati sintetici.\\ Il lavoro proposto esplora CTGAN e TVAE, analizzandone l'architetture. Particolare attenzione è stata rivolta allo sviluppo di una pipeline di test che valuta l'efficacia dei modelli in termini di fedeltà dei dati generati, utilità e sopratutto privacy. I test includono l'analisi della similarità statistica tra i dati sintetici e i dati reali, nonché valutazioni specifiche sulla capacità dei modelli di proteggere informazioni sensibili e prevenire la re-identificazione degli individui nei dataset. Un aspetto cruciale affrontato in questa tesi è il problema della privacy nei dati sintetici. Nonostante i dati sintetici siano considerati un mezzo per mitigare i rischi legati alla privacy, emergono nuove sfide riguardo la possibilità di inferire informazioni sugli individui a partire dai dati generati. La ricerca sottolinea l'importanza di implementare meccanismi robusti di privacy by design nei modelli di generazione di dati sintetici per assicurare che i dati rimangano utili per l'analisi e al contempo rispettino i requisiti di privacy. In conclusione, questa tesi presenta non solo una panoramica approfondita dei modelli CTGAN e TVAE, ma anche una metodologia per la valutazione e il miglioramento della generazione di dati sintetici, con un occhio di riguardo verso le implicazioni in termini di privacy.

Applicazioni Avanzate di Modelli Generativi nella Creazione di Dati Tabellari

NARETTO, GABRIELE
2022/2023

Abstract

Negli ultimi anni, la generazione di dati sintetici ha conosciuto una rapida crescita, diventando una tecnologia di grande interesse nel campo del machine learning e della privacy dei dati. Questo interesse è motivato in parte dalla necessità di disporre di vasti set di dati per addestrare modelli di machine learning, in modo che questi ultimi possano apprendere efficacemente senza compromettere la privacy degli utenti. La continua crescita nella domanda di dati porta le aziende a ricercare dei metodi per generare dati in modo semplice e automatizzato, fornendo così una soluzione al problema della scarsità di dati disponibili per l'addestramento di tali modelli. Questa tesi si concentra quindi sullo sviluppo di una pipeline di generazione di dati sintetici tabellari, con un focus particolare sui modelli CTGAN e TVAE, ritenuti tra i modelli allo stato dell'arte della generazione di dati sintetici.\\ Il lavoro proposto esplora CTGAN e TVAE, analizzandone l'architetture. Particolare attenzione è stata rivolta allo sviluppo di una pipeline di test che valuta l'efficacia dei modelli in termini di fedeltà dei dati generati, utilità e sopratutto privacy. I test includono l'analisi della similarità statistica tra i dati sintetici e i dati reali, nonché valutazioni specifiche sulla capacità dei modelli di proteggere informazioni sensibili e prevenire la re-identificazione degli individui nei dataset. Un aspetto cruciale affrontato in questa tesi è il problema della privacy nei dati sintetici. Nonostante i dati sintetici siano considerati un mezzo per mitigare i rischi legati alla privacy, emergono nuove sfide riguardo la possibilità di inferire informazioni sugli individui a partire dai dati generati. La ricerca sottolinea l'importanza di implementare meccanismi robusti di privacy by design nei modelli di generazione di dati sintetici per assicurare che i dati rimangano utili per l'analisi e al contempo rispettino i requisiti di privacy. In conclusione, questa tesi presenta non solo una panoramica approfondita dei modelli CTGAN e TVAE, ma anche una metodologia per la valutazione e il miglioramento della generazione di dati sintetici, con un occhio di riguardo verso le implicazioni in termini di privacy.
ITA
In recent years, synthetic data generation has experienced rapid growth, becoming a technology of great interest in the fields of machine learning and data privacy. This interest is partly motivated by the need for vast datasets to train machine learning models effectively, ensuring they learn without compromising user privacy. The increasing demand for data leads companies to seek methods for generating data simply and automatically, providing a solution to the problem of data scarcity for training such models. This thesis thus focuses on developing a pipeline for generating synthetic tabular data, with particular emphasis on the CTGAN and TVAE models, considered state-of-the-art in synthetic data generation. The proposed work explores CTGAN and TVAE, analyzing their architectures. Special attention has been given to developing a testing pipeline that evaluates the models' effectiveness in terms of the fidelity of generated data, utility, and, most importantly, privacy. Tests include analyzing the statistical similarity between synthetic and real data, as well as specific assessments of the models' ability to protect sensitive information and prevent the re-identification of individuals in datasets. A crucial aspect addressed in this thesis is the issue of privacy in synthetic data. Despite synthetic data being considered a means to mitigate privacy risks, new challenges emerge regarding the possibility of inferring information about individuals from the generated data. The research underscores the importance of implementing robust privacy by design mechanisms in synthetic data generation models to ensure that data remain useful for analysis while respecting privacy requirements. In conclusion, this thesis presents not only a comprehensive overview of the CTGAN and TVAE models but also a methodology for evaluating and improving synthetic data generation, with a focus on privacy implications.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
886277_test_magistralegabrielenaretto.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.53 MB
Formato Adobe PDF
1.53 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/145753