This work is centered on the domain of Natural Language Processing (NLP), focusing on the task of sarcasm detection. It begins by presenting a theoretical contextualization for both NLP and the specialized area of sarcasm detection. Subsequently, it delves into practical application by engaging in a sarcasm detection task sourced from SemEval 2022, a globally recognized international workshop on semantic evaluation within the NLP domain. The study is organized into four chapters. Chapter 1 provides an overview of Natural Language Processing and its relationship with Artificial Intelligence (AI) and Text Mining. It underscores the importance of NLP in handling the complex and diverse nature of human language. The chapter outlines NLP's primary objectives, such as Natural Language Understanding and Natural Language Generation, with a focus on written language understanding. The text then introduces the four levels of NLP analysis: morphological, syntactic, semantic, and pragmatic. It discusses the evolution from rule-based systems to machine learning and statistical rule-based systems. The chapter concludes with a glimpse into the use of Deep Learning and Neural Networks in modern NLP, as well as the application of NLP and Text Mining in various domains and the pressing issues of explainability and bias in NLP systems. Overall, Chapter 1 provides a comprehensive foundation for understanding the subsequent content of this thesis. In chapter 2, the discussion revolves around the utilization of ironic and sarcastic language devices on social media platforms. It starts by presenting the concepts of irony and sarcasm and their use on social media. The chapter then delves into the task of sarcasm detection, highlighting the challenges posed by informal, noisy, and often non-standard social media text. Notable researches in the field of sarcasm detection are presented, showcasing various methodologies and their respective outcomes. Additionally, the text underscores the importance of the relationship between sarcasm detection and sentiment analysis, pointing toward a promising direction for future investigations to enhance the accuracy of sentiment analysis for text containing ironic or sarcastic utterances. Chapter 3 delves into the iSarcasmEval 2022 shared task, focusing on subtask A, regarding intended sarcasm detection. The chapter outlines the novel approach employed for data collection, where authors themselves label sarcasm in their texts, addressing limitations in traditional data collection methods. The chapter discusses the three subtasks within the shared task, with a primary focus on Subtask A, which deals with sarcasm detection in English. Then Support Vector Machine (SVM) and Naïve Bayes classifiers are introduced. Subsequently, the chapter details a series of experiments conducted on the training set using 5-fold validation to build the models which will be applied to predict the test set. Chapter 4 shas a focus on the application and assessment of the best-performing models built in chapter 3. The evaluation metric is explained in the chapter. Results are presented and compared to those of the participating teams in iSarcasmEval 2022 subtask A (English). The models' individual performances are scrutinized in detail. The chapter continues with a brief presentation of the models employed by the top three performing teams in the competition and concludes with a commentary of the results.

Questo lavoro si colloca nel campo dell'Elaborazione del Linguaggio Naturale (NLP), concentrandosi sulla task della rilevazione del sarcasmo. Inizia presentando una contestualizzazione teorica sia per l'NLP che per il task di rilevazione del sarcasmo. Successivamente, si addentra nell'applicazione pratica impegnandosi in un task di rilevazione del sarcasmo proveniente da SemEval 2022, un workshop internazionale riconosciuto a livello globale sulla valutazione semantica nel campo dell'NLP. Lo studio è organizzato in quattro capitoli. Il Capitolo 1 fornisce una panoramica dell'Elaborazione del Linguaggio Naturale e del suo rapporto con l'Intelligenza Artificiale (IA) e il Text Mining. Sottolinea l'importanza dell'NLP nel gestire la natura complessa e diversificata del linguaggio umano. Il capitolo illustra gli obiettivi principali dell'NLP, come la Comprensione del Linguaggio Naturale e la Generazione del Linguaggio Naturale, con un focus sulla comprensione del linguaggio scritto. Viene introdotta l'analisi a quattro livelli dell'NLP: morfologica, sintattica, semantica e pragmatica. Si discute dell'evoluzione dai sistemi basati su regole ai sistemi basati su apprendimento automatico e regole statistiche. Il capitolo si conclude con uno sguardo all'uso del Deep Learning e delle reti neurali nell'NLP moderno, nonché all'applicazione dell'NLP e del Text Mining in vari settori e alle questioni urgenti legate all'esplicabilità e ai bias nei sistemi NLP. In generale, il Capitolo 1 fornisce una base completa per comprendere i contenuti successivi di questa tesi. Nel Capitolo 2, la discussione verte sull'utilizzo di dispositivi linguistici quali ironia e sarcasmo sulle piattaforme di social media. Inizia presentando i concetti di ironia e sarcasmo e il loro utilizzo sui social media. Il capitolo quindi approfondisce la task di rilevazione del sarcasmo, evidenziando le sfide poste dal testo informale e non standard dei social media. Vengono presentate ricerche rilevanti nel campo della rilevazione del sarcasmo, mostrando diverse metodologie e i rispettivi risultati. Inoltre, il testo sottolinea l'importanza del rapporto tra la rilevazione del sarcasmo e l'analisi del sentiment, indicando una direzione promettente per future indagini volte a migliorare l'accuratezza dell'analisi del sentiment per i testi contenenti espressioni ironiche o sarcastiche. Il Capitolo 3 si addentra nello shared task di iSarcasmEval 2022, concentrandosi sul Subtask A, relativo alla rilevazione del sarcasmo. Il capitolo illustra l'approccio innovativo utilizzato per la raccolta dei dati, in cui gli autori stessi etichettano il sarcasmo nei loro testi, affrontando le limitazioni dei tradizionali metodi di raccolta dati. Il capitolo discute i tre subtask all'interno dello shared task, con un focus principale sul Subtask A, che tratta la rilevazione del sarcasmo in inglese. Vengono introdotti i classificatori Support Vector Machine (SVM) e Naïve Bayes. Successivamente, il capitolo dettaglia una serie di esperimenti condotti sul set di addestramento utilizzando la validazione 5 fold per costruire i modelli che saranno applicati per prevedere il set di test. Il Capitolo 4 si concentra sull'applicazione e la valutazione dei modelli migliori costruiti nel Capitolo 3. La metrica di valutazione è spiegata nel capitolo. Vengono presentati i risultati e confrontati con quelli delle squadre partecipanti nella Subtask A e si conclude con un commento dei risultati ottenuti.

Un approccio di machine learning per la rilevazione del sarcasmo nei tweet in inglese da SemEval 2022

MAURINO, ANNA MARIA
2022/2023

Abstract

Questo lavoro si colloca nel campo dell'Elaborazione del Linguaggio Naturale (NLP), concentrandosi sulla task della rilevazione del sarcasmo. Inizia presentando una contestualizzazione teorica sia per l'NLP che per il task di rilevazione del sarcasmo. Successivamente, si addentra nell'applicazione pratica impegnandosi in un task di rilevazione del sarcasmo proveniente da SemEval 2022, un workshop internazionale riconosciuto a livello globale sulla valutazione semantica nel campo dell'NLP. Lo studio è organizzato in quattro capitoli. Il Capitolo 1 fornisce una panoramica dell'Elaborazione del Linguaggio Naturale e del suo rapporto con l'Intelligenza Artificiale (IA) e il Text Mining. Sottolinea l'importanza dell'NLP nel gestire la natura complessa e diversificata del linguaggio umano. Il capitolo illustra gli obiettivi principali dell'NLP, come la Comprensione del Linguaggio Naturale e la Generazione del Linguaggio Naturale, con un focus sulla comprensione del linguaggio scritto. Viene introdotta l'analisi a quattro livelli dell'NLP: morfologica, sintattica, semantica e pragmatica. Si discute dell'evoluzione dai sistemi basati su regole ai sistemi basati su apprendimento automatico e regole statistiche. Il capitolo si conclude con uno sguardo all'uso del Deep Learning e delle reti neurali nell'NLP moderno, nonché all'applicazione dell'NLP e del Text Mining in vari settori e alle questioni urgenti legate all'esplicabilità e ai bias nei sistemi NLP. In generale, il Capitolo 1 fornisce una base completa per comprendere i contenuti successivi di questa tesi. Nel Capitolo 2, la discussione verte sull'utilizzo di dispositivi linguistici quali ironia e sarcasmo sulle piattaforme di social media. Inizia presentando i concetti di ironia e sarcasmo e il loro utilizzo sui social media. Il capitolo quindi approfondisce la task di rilevazione del sarcasmo, evidenziando le sfide poste dal testo informale e non standard dei social media. Vengono presentate ricerche rilevanti nel campo della rilevazione del sarcasmo, mostrando diverse metodologie e i rispettivi risultati. Inoltre, il testo sottolinea l'importanza del rapporto tra la rilevazione del sarcasmo e l'analisi del sentiment, indicando una direzione promettente per future indagini volte a migliorare l'accuratezza dell'analisi del sentiment per i testi contenenti espressioni ironiche o sarcastiche. Il Capitolo 3 si addentra nello shared task di iSarcasmEval 2022, concentrandosi sul Subtask A, relativo alla rilevazione del sarcasmo. Il capitolo illustra l'approccio innovativo utilizzato per la raccolta dei dati, in cui gli autori stessi etichettano il sarcasmo nei loro testi, affrontando le limitazioni dei tradizionali metodi di raccolta dati. Il capitolo discute i tre subtask all'interno dello shared task, con un focus principale sul Subtask A, che tratta la rilevazione del sarcasmo in inglese. Vengono introdotti i classificatori Support Vector Machine (SVM) e Naïve Bayes. Successivamente, il capitolo dettaglia una serie di esperimenti condotti sul set di addestramento utilizzando la validazione 5 fold per costruire i modelli che saranno applicati per prevedere il set di test. Il Capitolo 4 si concentra sull'applicazione e la valutazione dei modelli migliori costruiti nel Capitolo 3. La metrica di valutazione è spiegata nel capitolo. Vengono presentati i risultati e confrontati con quelli delle squadre partecipanti nella Subtask A e si conclude con un commento dei risultati ottenuti.
ENG
This work is centered on the domain of Natural Language Processing (NLP), focusing on the task of sarcasm detection. It begins by presenting a theoretical contextualization for both NLP and the specialized area of sarcasm detection. Subsequently, it delves into practical application by engaging in a sarcasm detection task sourced from SemEval 2022, a globally recognized international workshop on semantic evaluation within the NLP domain. The study is organized into four chapters. Chapter 1 provides an overview of Natural Language Processing and its relationship with Artificial Intelligence (AI) and Text Mining. It underscores the importance of NLP in handling the complex and diverse nature of human language. The chapter outlines NLP's primary objectives, such as Natural Language Understanding and Natural Language Generation, with a focus on written language understanding. The text then introduces the four levels of NLP analysis: morphological, syntactic, semantic, and pragmatic. It discusses the evolution from rule-based systems to machine learning and statistical rule-based systems. The chapter concludes with a glimpse into the use of Deep Learning and Neural Networks in modern NLP, as well as the application of NLP and Text Mining in various domains and the pressing issues of explainability and bias in NLP systems. Overall, Chapter 1 provides a comprehensive foundation for understanding the subsequent content of this thesis. In chapter 2, the discussion revolves around the utilization of ironic and sarcastic language devices on social media platforms. It starts by presenting the concepts of irony and sarcasm and their use on social media. The chapter then delves into the task of sarcasm detection, highlighting the challenges posed by informal, noisy, and often non-standard social media text. Notable researches in the field of sarcasm detection are presented, showcasing various methodologies and their respective outcomes. Additionally, the text underscores the importance of the relationship between sarcasm detection and sentiment analysis, pointing toward a promising direction for future investigations to enhance the accuracy of sentiment analysis for text containing ironic or sarcastic utterances. Chapter 3 delves into the iSarcasmEval 2022 shared task, focusing on subtask A, regarding intended sarcasm detection. The chapter outlines the novel approach employed for data collection, where authors themselves label sarcasm in their texts, addressing limitations in traditional data collection methods. The chapter discusses the three subtasks within the shared task, with a primary focus on Subtask A, which deals with sarcasm detection in English. Then Support Vector Machine (SVM) and Naïve Bayes classifiers are introduced. Subsequently, the chapter details a series of experiments conducted on the training set using 5-fold validation to build the models which will be applied to predict the test set. Chapter 4 shas a focus on the application and assessment of the best-performing models built in chapter 3. The evaluation metric is explained in the chapter. Results are presented and compared to those of the participating teams in iSarcasmEval 2022 subtask A (English). The models' individual performances are scrutinized in detail. The chapter continues with a brief presentation of the models employed by the top three performing teams in the competition and concludes with a commentary of the results.
IMPORT DA TESIONLINE
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/151127