This thesis explores the potential advantages of training an intra-predictor neural network using a synthetic lightfield dataset. Recent advancements in neural networks have significantly accelerated lightfield research; however, the limited availability of real-world data constrains potential training improvements. Although synthetic data can be used to address this issue, they introduce a domain gap with real data that reduces the generalization capability of the models. To investigate this challenge, we designed and implemented a controlled study aimed at quantifying the domain gap and determining whether it can be reduced. Additionally, we explore whether model generalization can be improved by refining the network on real-world data after pretraining it on synthetic datasets. This study is framed within the context of lightfield compression, an area that has received relatively little attention compared to broader lightfield research. Due to their high dimensionality, lightfields (LFs) are challenging to be stored and transmittedd efficiently, which limits their application in areas where technological advancements could be beneficial. Our approach involved generating a synthetic LFs dataset using Blender and the Objaverse dataset for 3D meshes. This required the development of custom Blender scripts to ensure the accurate construction and rendering of scenes. We then trained an autoencoder based on a convolutional neural network (CNN) architecture using this dataset. The autoencoder treats the intra prediction as an inpainting problem to exploit the angular correlation in the lenslet format of the LFs to predict whole macro images from the nearby decoded context. The trained model was then integrated into a VTM (VVC Test Model) encoder as an intra-predictor, enabling the encoding of 12 real lightfields that were used as a test set. To evaluate performance, we compared the results of the VVC encoder with and without the neural network intra-predictor by analyzing BD-Rate and BD-PSNR, which are metrics used in video and image compression research to compare the performance of different compression methods. The results showed promising improvements, indicating the potential for further advancements. Additionally, we repeated the operation on a pruned version of the network, both with and without the use of padded versions of the lightfield images. This allowed us to further investigate opportunities for quality enhancement. As last experiments, we performed two finetuning over real live data, whose results suggest that training times could be reduced by using a pretrained model over synthetic lightfields. We conclude that training with synthetic lightfields holds significant promise for improving lightfield compression in the future. This work is grounded in the framework established by I.D. Machado.
Questa tesi esplora I potenziali vantaggi di addestrare una rete neurale per l’intra-prediction tilizzando un dataset sintetico composto da lightfield. I recenti progressi nelle reti neurali hanno subito un'accelerazione significativa nella ricerca sui lightifeld; Tuttavia, la disponibilità limitata di dati del mondo reale limita il raggiungimento di potenziali miglioramenti. Sebbene i dati sintetici possano essere utilizzati per risolvere questo problema, questi introducono un dominio gap con i dati reali che riduce la capacità di generalizzazione dei modelli. Per indagare su questa sfida, abbiamo progettato e implementato uno studio controllato volto a quantificare il domain gap e determinare se può essere ridotto. Inoltre, esploriamo se la generalizzazione del modello può essere migliorato raffinando la rete sui dati del mondo reale dopo averla preaddestrata su set di dati sintetici. Questo studio è svolto nel contest della compressione di lightfield, un'area che ha ricevuto un un'attenzione piuttosto limitata nell’ambito della ricerca sui lightfield. A causa della loro alta dimensionalità, i lightfields (LFs) sono difficili da archiviare e trasmettere in modo efficiente, il che limita la loro applicazione in aree in cui i progressi tecnologici potrebbero essere vantaggiosi. Il nostro approccio prevedeva la generazione di un dataset sintetico di LFs usando Blender e il dataset di Objaverse per 3D meshes. Questo ha richiesto lo sviluppo di scripts in blender per assicurare l’accurata costruzione delle scene e del loro render. Abbiamo poi addestrato con il nostro dataset un autoencoder basato sull’architettura di reti neurali convoluzionali (CNN). L’autoencoder tratta l’intra prediction come un problema di inpainting per sfruttare la correlazione angolare del formato lenslet dei LFs, in modo da predire un’intera macro image (MI) dal contesto decodificato vicino. Il modello addestratto è poi stato integrato in un VTIM (VVC Test Model) encoder come intra-predictor, permettendo l’encoding dei 12 lightfield reali precedentemente usati come test set. Per valutare le performance, abbiamo confrontato I risultati dell’encoder VVC con e senza la rete neurale per l’intra-predictor, analizzando i BD-Rate e i BD-PSNR, che sono metriche usate nella ricerca sulla compressione di immagini e video per confrontare le performance di diversi metodi di compressione. I risultati hanno mostrato miglioramenti promettenti, indicando potenziali miglioramenti futuri. Inoltre, abbiamo svolto le stesse analisi su alcune versioni pruned della rete, sia con che senza padding delle immagini lightfield. Questo ha permesso di indagare ulteriori opportunità di miglioramento della qualità. Come ultimi esperimenti, abbiamo svolto due finetuning con su dati reali, i cui risultati suggeriscono che i tempi di addestramento potrebbero essere ridotti se svolti su un modello preaddestrato su dati sintetici. Abbiamo quindi concluso che l’addestramento basato su lightifeld sintetici offre prospettive significative per il miglioramento della compressione dei lightfield in futuro. Questa tesi è stata sviluppata sulla base del lavoro di I.D. Machado.
Generazione di lightfield sintetici per l'allenamento di un Intra predictor
VICARIO, GABRIELE
2023/2024
Abstract
Questa tesi esplora I potenziali vantaggi di addestrare una rete neurale per l’intra-prediction tilizzando un dataset sintetico composto da lightfield. I recenti progressi nelle reti neurali hanno subito un'accelerazione significativa nella ricerca sui lightifeld; Tuttavia, la disponibilità limitata di dati del mondo reale limita il raggiungimento di potenziali miglioramenti. Sebbene i dati sintetici possano essere utilizzati per risolvere questo problema, questi introducono un dominio gap con i dati reali che riduce la capacità di generalizzazione dei modelli. Per indagare su questa sfida, abbiamo progettato e implementato uno studio controllato volto a quantificare il domain gap e determinare se può essere ridotto. Inoltre, esploriamo se la generalizzazione del modello può essere migliorato raffinando la rete sui dati del mondo reale dopo averla preaddestrata su set di dati sintetici. Questo studio è svolto nel contest della compressione di lightfield, un'area che ha ricevuto un un'attenzione piuttosto limitata nell’ambito della ricerca sui lightfield. A causa della loro alta dimensionalità, i lightfields (LFs) sono difficili da archiviare e trasmettere in modo efficiente, il che limita la loro applicazione in aree in cui i progressi tecnologici potrebbero essere vantaggiosi. Il nostro approccio prevedeva la generazione di un dataset sintetico di LFs usando Blender e il dataset di Objaverse per 3D meshes. Questo ha richiesto lo sviluppo di scripts in blender per assicurare l’accurata costruzione delle scene e del loro render. Abbiamo poi addestrato con il nostro dataset un autoencoder basato sull’architettura di reti neurali convoluzionali (CNN). L’autoencoder tratta l’intra prediction come un problema di inpainting per sfruttare la correlazione angolare del formato lenslet dei LFs, in modo da predire un’intera macro image (MI) dal contesto decodificato vicino. Il modello addestratto è poi stato integrato in un VTIM (VVC Test Model) encoder come intra-predictor, permettendo l’encoding dei 12 lightfield reali precedentemente usati come test set. Per valutare le performance, abbiamo confrontato I risultati dell’encoder VVC con e senza la rete neurale per l’intra-predictor, analizzando i BD-Rate e i BD-PSNR, che sono metriche usate nella ricerca sulla compressione di immagini e video per confrontare le performance di diversi metodi di compressione. I risultati hanno mostrato miglioramenti promettenti, indicando potenziali miglioramenti futuri. Inoltre, abbiamo svolto le stesse analisi su alcune versioni pruned della rete, sia con che senza padding delle immagini lightfield. Questo ha permesso di indagare ulteriori opportunità di miglioramento della qualità. Come ultimi esperimenti, abbiamo svolto due finetuning con su dati reali, i cui risultati suggeriscono che i tempi di addestramento potrebbero essere ridotti se svolti su un modello preaddestrato su dati sintetici. Abbiamo quindi concluso che l’addestramento basato su lightifeld sintetici offre prospettive significative per il miglioramento della compressione dei lightfield in futuro. Questa tesi è stata sviluppata sulla base del lavoro di I.D. Machado.File | Dimensione | Formato | |
---|---|---|---|
Lightfield_Generation___Master_Thesis_Vicario_Gabriele.pdf
non disponibili
Dimensione
43.5 MB
Formato
Adobe PDF
|
43.5 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/164340