Al giorno d'oggi le reti neurali si sono affermate come uno degli strumenti principali per lo svolgimento di task in vari campi, come il Natural Language Processing e la Computer Vision. Con il crescere della difficoltà del task è cresciuta però anche la profondità ed il numero di parametri dei modelli, con un corrispondente aumento della complessità del training. Inoltre questi modelli sono molto soggetti al fenomeno dell'overfitting, in cui la rete non riesce a generalizzare su esempi diversi da quelli del dataset utilizzato per l'addestramento. In letteratura sono state presentate svariate tecniche per ovviare a questo problema, una delle più efficaci è il Dropout, in cui si spengono alcuni neuroni della rete per prevenirne il co-adattamento e migliorare la generalizzazione. Da questa procedura sono state derivate numerose varianti, l'obiettivo di questa tesi è quello di estendere il Dropout generando una nuova tecnica, il Blackout, che sia semplice, scalabile ed efficace. Il Blackout si basa sull'idea che, spegnendo interi layers invece che singoli neuroni, gli effetti del Dropout possano essere amplificati. Il processo prevede l'utilizzo di un iperparametro indicante la probabilità di spegnimento dei livelli e, in particolare, nel caso in cui la probabilità indichi che il layer debba essere spento, i suoi pesi vengono congelati per lo step di training corrente. Questo fa si che il layer non venga completamente rimosso, rendendo la tecnica applicabile anche su modelli aventi input di dimensione variabile. Il Blackout, a differenza delle altre tecniche già esistenti, è dunque applicabile a numerosi tipi di architetture neurali e permette di ottenere buoni risultati in termini di generalizzazione e di tempi di training. Si producono quindi modelli più robusti e performanti, riducendo l'overfitting e migliorando perciò i risultati finali. Per valutare l'approccio sono stati eseguiti più esperimenti coinvolgendo architetture neurali di vario tipo (Fully Connected, CNN, Transformers) e dataset di diversa natura e dimensione (MNIST, CIFAR, IMDb). La stessa architettura viene allenata sul dataset implementando più tecniche diverse, oltre al Blackout, al fine di confrontarne i risultati ed avere un punto di vista più ampio possibile.

Blackout: un’estensione del dropout per il training di reti neurali profonde

PETTINATO, PIETRO FRANCESCO
2021/2022

Abstract

Al giorno d'oggi le reti neurali si sono affermate come uno degli strumenti principali per lo svolgimento di task in vari campi, come il Natural Language Processing e la Computer Vision. Con il crescere della difficoltà del task è cresciuta però anche la profondità ed il numero di parametri dei modelli, con un corrispondente aumento della complessità del training. Inoltre questi modelli sono molto soggetti al fenomeno dell'overfitting, in cui la rete non riesce a generalizzare su esempi diversi da quelli del dataset utilizzato per l'addestramento. In letteratura sono state presentate svariate tecniche per ovviare a questo problema, una delle più efficaci è il Dropout, in cui si spengono alcuni neuroni della rete per prevenirne il co-adattamento e migliorare la generalizzazione. Da questa procedura sono state derivate numerose varianti, l'obiettivo di questa tesi è quello di estendere il Dropout generando una nuova tecnica, il Blackout, che sia semplice, scalabile ed efficace. Il Blackout si basa sull'idea che, spegnendo interi layers invece che singoli neuroni, gli effetti del Dropout possano essere amplificati. Il processo prevede l'utilizzo di un iperparametro indicante la probabilità di spegnimento dei livelli e, in particolare, nel caso in cui la probabilità indichi che il layer debba essere spento, i suoi pesi vengono congelati per lo step di training corrente. Questo fa si che il layer non venga completamente rimosso, rendendo la tecnica applicabile anche su modelli aventi input di dimensione variabile. Il Blackout, a differenza delle altre tecniche già esistenti, è dunque applicabile a numerosi tipi di architetture neurali e permette di ottenere buoni risultati in termini di generalizzazione e di tempi di training. Si producono quindi modelli più robusti e performanti, riducendo l'overfitting e migliorando perciò i risultati finali. Per valutare l'approccio sono stati eseguiti più esperimenti coinvolgendo architetture neurali di vario tipo (Fully Connected, CNN, Transformers) e dataset di diversa natura e dimensione (MNIST, CIFAR, IMDb). La stessa architettura viene allenata sul dataset implementando più tecniche diverse, oltre al Blackout, al fine di confrontarne i risultati ed avere un punto di vista più ampio possibile.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
937619_tesi.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 3.33 MB
Formato Adobe PDF
3.33 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/104630