L’apprendimento di reti neurali profonde per la classificazione di immagini necessita di dataset molto grandi e con grande variazione tra le immagini. Generare tali dataset può essere molto oneroso, in quanto ottenere molta variabilità è difficile. Una tecnica per mitigare il problema consiste nell’aumentare il dataset (dataset augmentation), cioè generare multiple immagini varie partendo da un insieme più piccolo, attraverso tecniche di ampliamento. Nell'ambito del progetto europeo NextPerception (https://www.nextperception.eu/) la tesi si propone di sviluppare e validare un sistema di dataset augmentation per dataset di Driver Activity Recognition (DAR). Lo scopo è acquisire immagini di guidatori in un sistema simulato, con un green screen in sfondo. È stata quindi creata una pipeline di trasformazione che elimina lo sfondo verde, e lo sostituisce con l'immagine di un veicolo, ottenendo così un dataset più realistico. La pipeline creata è composta da 6 macro passaggi. Il primo passaggio è l'acquisizione del video con lo sfondo verde, a cui segue la calibrazione e la creazione di una palette di colori, ovvero la creazione di una tavolozza di colori estratta dallo sfondo dell'immagine, così da massimizzare, nella chromakey, la rimozione dello sfondo e minimizzare la rimozione del soggetto. In seguito, avviene l'applicazione del Chromakey, un algoritmo che servendosi della Palette sopracitata crea una maschera, la quale applicata all'immagine, rende trasparente la parte occupata dallo sfondo verde. A ciò segue l'applicazione del Despill, ovvero un algoritmo che rimuove i residui di verde dal soggetto. Dopo l'applicazione dei due precedenti algoritmi, si passa alla ricalibrazione dei colori dell'immagine in riferimento al nuovo sfondo, così da rendere l'immagine composta più realistica. L'ultimo passaggio consiste nella ricomposizione del video, ossia la sovrapposizione di ogni frame, su cui viene applicata la maschera con il nuovo sfondo. Confrontando i risultati ottenuti con lo stato dell'arte attuale, si evince il raggiungimento di un buon risultato, sia da un punto di vista numerico, sia, sopratutto, da un punto di vista visivo.

Estensione di dataset per il riconoscimento dell'attività di un guidatore utilizzando ChromaKey, Despill e altre tecniche cinematografiche

CRAPAROTTA, ROBERTO
2021/2022

Abstract

L’apprendimento di reti neurali profonde per la classificazione di immagini necessita di dataset molto grandi e con grande variazione tra le immagini. Generare tali dataset può essere molto oneroso, in quanto ottenere molta variabilità è difficile. Una tecnica per mitigare il problema consiste nell’aumentare il dataset (dataset augmentation), cioè generare multiple immagini varie partendo da un insieme più piccolo, attraverso tecniche di ampliamento. Nell'ambito del progetto europeo NextPerception (https://www.nextperception.eu/) la tesi si propone di sviluppare e validare un sistema di dataset augmentation per dataset di Driver Activity Recognition (DAR). Lo scopo è acquisire immagini di guidatori in un sistema simulato, con un green screen in sfondo. È stata quindi creata una pipeline di trasformazione che elimina lo sfondo verde, e lo sostituisce con l'immagine di un veicolo, ottenendo così un dataset più realistico. La pipeline creata è composta da 6 macro passaggi. Il primo passaggio è l'acquisizione del video con lo sfondo verde, a cui segue la calibrazione e la creazione di una palette di colori, ovvero la creazione di una tavolozza di colori estratta dallo sfondo dell'immagine, così da massimizzare, nella chromakey, la rimozione dello sfondo e minimizzare la rimozione del soggetto. In seguito, avviene l'applicazione del Chromakey, un algoritmo che servendosi della Palette sopracitata crea una maschera, la quale applicata all'immagine, rende trasparente la parte occupata dallo sfondo verde. A ciò segue l'applicazione del Despill, ovvero un algoritmo che rimuove i residui di verde dal soggetto. Dopo l'applicazione dei due precedenti algoritmi, si passa alla ricalibrazione dei colori dell'immagine in riferimento al nuovo sfondo, così da rendere l'immagine composta più realistica. L'ultimo passaggio consiste nella ricomposizione del video, ossia la sovrapposizione di ogni frame, su cui viene applicata la maschera con il nuovo sfondo. Confrontando i risultati ottenuti con lo stato dell'arte attuale, si evince il raggiungimento di un buon risultato, sia da un punto di vista numerico, sia, sopratutto, da un punto di vista visivo.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
923933_tesi.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 120.57 MB
Formato Adobe PDF
120.57 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/85939