Transformer-based neural networks currently represent the state-of-the-art in the field of natural language processing (NLP). Their characteristic is that they are solely based on the self-attention mechanism and, consequently, do not use convolutions or recurrence. Compared to such architectures, Transformers suffer less from the vanishing gradient problem and are able to learn long-term dependencies more easily. The main limiting factor in their practical adoption is the complexity of self-attention, which grows quadratically with the size of the input. The goal of this thesis is to develop Transformer architectures for NLP that are efficient in terms of memory requirements and computational complexity. In this thesis, two different Transformer-based architectures have been developed and trained. The first, AdalBERTo, is an improved version of the well-known BERT where the embedding layer and the output layer have been replaced with adaptive input and adaptive softmax respectively, reducing the number of parameters and the consumption of resources compared to BERT. The second architecture, DelBERTo, is instead based on DeLighT (Deep and Light-weight Transformer), which reduces the number of parameters and redistributes them among the different parts of the network. As in the case of AdalBERTo, DelBERTo relies on adaptive input and adaptive softmax for parameter reduction. Both architectures were trained and evaluated in the context of a sentiment analysis task. The architectures were first pre-trained in a self-supervised way using masked language modeling on a subset of the TWITA dataset consisting of 128 million tweets in Italian language. Next, the architectures were fine-tuned on the SENTIPOLC 2016 dataset, which contains 7410 annotated tweets and whose tasks are subjectivity classification, polarity classification, and irony detection. The results were compared with those of AlBERTo, a BERT model that represents the state-of-the-art in sentiment analysis on tweets in Italian. The experiments show that AdalBERTo and DelBERTo obtain results comparable with AlBERTo, despite requiring significantly fewer resources.
Le reti neurali basate sui Transformer rappresentano attualmente lo stato dell'arte nel campo dell'elaborazione del linguaggio naturale (NLP). La loro caratteristica è che sono solamente basate sul meccanismo della self-attention e di conseguenza non utilizzano convoluzioni o ricorrenza. Rispetto a tali architetture, i Transformers soffrono meno del problema della scomparsa del gradiente e sono in grado di imparare più facilmente dipendenze a lungo termine. Il principale fattore limitante la loro adozione pratica è la complessità della self-attention, quadratica con la dimensione dell'input. L'obiettivo di questa tesi è sviluppare architetture Transformer per NLP efficienti in termini di requisiti di memoria e di complessità computazionale. In questa tesi sono state sviluppate e allenate due diverse architetture Transformer-based. La prima, AdalBERTo, è una versione migliorata del noto BERT, dove l'embedding layer e l'output layer sono stati rispettivamente sostituiti con adaptive input e adaptive softmax, riducendo il numero di parametri e il consumo di risorse rispetto a BERT. La seconda architettura, DelBERTo, è invece basata su DeLighT (Deep and Light-weight Transformer), che riduce il numero di parametri e li ridistribuisce tra le diverse parti della rete. Come nel caso di AdalBERTo, DelBERTo utilizza adaptive input e adaptive softmax. Entrambe le architetture sono state valutate nel contesto di un task di sentiment analysis. Le architetture sono state prima pre-allenate in modo self-supervised usando il masked language modeling su un sottoinsieme del dataset TWITA composto da 128 milioni di tweet in lingua Italiana. Dopo il pre-training è stato fatto un fine-tuning sul dataset SENTIPOLC 2016, che contiene 7410 tweet annotati e i cui task sono la classificazione della soggettività, la classificazione del sentiment e il rilevamento dell'ironia. I risultati sono stati confrontati con quelli di AlBERTo, un modello BERT che rappresenta lo stato dell'arte nella sentiment analysis su tweet in Italiano. Gli esperimenti mostrano che AdalBERTo e DelBERTo ottengono risultati confrontabili con AlBERTo, nonostante richiedano significativamente meno risorse in confronto a quest'ultimo.
Architetture Transformer Efficienti per la Sentiment Analysis in Italiano
MOLINARO, LUCA
2020/2021
Abstract
Le reti neurali basate sui Transformer rappresentano attualmente lo stato dell'arte nel campo dell'elaborazione del linguaggio naturale (NLP). La loro caratteristica è che sono solamente basate sul meccanismo della self-attention e di conseguenza non utilizzano convoluzioni o ricorrenza. Rispetto a tali architetture, i Transformers soffrono meno del problema della scomparsa del gradiente e sono in grado di imparare più facilmente dipendenze a lungo termine. Il principale fattore limitante la loro adozione pratica è la complessità della self-attention, quadratica con la dimensione dell'input. L'obiettivo di questa tesi è sviluppare architetture Transformer per NLP efficienti in termini di requisiti di memoria e di complessità computazionale. In questa tesi sono state sviluppate e allenate due diverse architetture Transformer-based. La prima, AdalBERTo, è una versione migliorata del noto BERT, dove l'embedding layer e l'output layer sono stati rispettivamente sostituiti con adaptive input e adaptive softmax, riducendo il numero di parametri e il consumo di risorse rispetto a BERT. La seconda architettura, DelBERTo, è invece basata su DeLighT (Deep and Light-weight Transformer), che riduce il numero di parametri e li ridistribuisce tra le diverse parti della rete. Come nel caso di AdalBERTo, DelBERTo utilizza adaptive input e adaptive softmax. Entrambe le architetture sono state valutate nel contesto di un task di sentiment analysis. Le architetture sono state prima pre-allenate in modo self-supervised usando il masked language modeling su un sottoinsieme del dataset TWITA composto da 128 milioni di tweet in lingua Italiana. Dopo il pre-training è stato fatto un fine-tuning sul dataset SENTIPOLC 2016, che contiene 7410 tweet annotati e i cui task sono la classificazione della soggettività, la classificazione del sentiment e il rilevamento dell'ironia. I risultati sono stati confrontati con quelli di AlBERTo, un modello BERT che rappresenta lo stato dell'arte nella sentiment analysis su tweet in Italiano. Gli esperimenti mostrano che AdalBERTo e DelBERTo ottengono risultati confrontabili con AlBERTo, nonostante richiedano significativamente meno risorse in confronto a quest'ultimo.File | Dimensione | Formato | |
---|---|---|---|
838147_tesimagistralelucamolinaro.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
2.13 MB
Formato
Adobe PDF
|
2.13 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/78892