The contribution of the thesis is placed in the field of computational linguistics, focusing on analyzing emoji's role in social media texts, evaluating the difficulties related to the semantics of emoji in messages, with particular reference to Twitter texts and the implementation of automatic systems capable to generate emojis to properly enrich the expressiveness of texts. We analyzed the results obtained by participating systems in the ITAMoji shared task organized as part of the Evalita 2018 evaluation campaign for the Italian language (Italian Emoji Prediction) and the results obtained in the contexts of the twin campaign Semeval 2018 organized on Twitter texts in English and Spanish. The thesis presents and discusses a qualitative and quantitative analysis of the results and of the most frequent errors produced by systems that participated in these campaigns also comparing in a comparative perspective: the common and language specific patterns are highlighted and a reflection on the most difficult emoji to predict is included. In the case of ITAMoji, the systems and human performance on the prediction task are compared on a portion of test data manually annotated by relying on the crowdsourcing platform Figure Eight.

Il contributo della tesi si colloca nell'ambito della linguistica computazionale e in particolare si concentra sull'analisi del ruolo delle emoji nei testi dei social media prendendo in considerazione le difficoltà relative alla semantica delle emoji nei messaggi, con particolare riferimento a Twitter e all'implementazione di sistemi automatici capaci di generare emoji che arricchiscano l'espressività dei testi in modo appropriato. Per effettuare tale analisi vengono presi in considerazione i risultati ottenuti dai partecipanti allo shared task ITAMoji organizzato nell'ambito della campagna di valutazione Evalita 2018 per la lingua italiana (Italian Emoji Prediction) e i risultati della campagna gemella Semeval 2018 organizzata su testi di Twitter in lingua inglese e spagnola. In particolare la tesi presenta e discute un'analisi qualitativa e quantitativa dei risultati e degli errori più frequenti dei sistemi che hanno partecipato alle campagne sulle diverse lingue, anche in prospettiva comparativa, evidenziando pattern di errore comuni e specifici e proponendo una riflessione sulle emoji più difficili da predire per i sistemi. Nel caso di ITAMoji si propone anche un confronto fra performance dei sistemi e la performance umana su una porzione dei dati del test set annotati da un pool di annotatori umani utilizzando la piattaforma di annotazione in crowdsourcing Figure Eight.

Emoji Prediction in Twitter: Analisi degli Errori nelle Campagne di Valutazione per l'Italiano, l'Inglese e lo Spagnolo a EVALITA e SemEval 2018

COGLIANDRO, FORTUNATO
2018/2019

Abstract

Il contributo della tesi si colloca nell'ambito della linguistica computazionale e in particolare si concentra sull'analisi del ruolo delle emoji nei testi dei social media prendendo in considerazione le difficoltà relative alla semantica delle emoji nei messaggi, con particolare riferimento a Twitter e all'implementazione di sistemi automatici capaci di generare emoji che arricchiscano l'espressività dei testi in modo appropriato. Per effettuare tale analisi vengono presi in considerazione i risultati ottenuti dai partecipanti allo shared task ITAMoji organizzato nell'ambito della campagna di valutazione Evalita 2018 per la lingua italiana (Italian Emoji Prediction) e i risultati della campagna gemella Semeval 2018 organizzata su testi di Twitter in lingua inglese e spagnola. In particolare la tesi presenta e discute un'analisi qualitativa e quantitativa dei risultati e degli errori più frequenti dei sistemi che hanno partecipato alle campagne sulle diverse lingue, anche in prospettiva comparativa, evidenziando pattern di errore comuni e specifici e proponendo una riflessione sulle emoji più difficili da predire per i sistemi. Nel caso di ITAMoji si propone anche un confronto fra performance dei sistemi e la performance umana su una porzione dei dati del test set annotati da un pool di annotatori umani utilizzando la piattaforma di annotazione in crowdsourcing Figure Eight.
ITA
The contribution of the thesis is placed in the field of computational linguistics, focusing on analyzing emoji's role in social media texts, evaluating the difficulties related to the semantics of emoji in messages, with particular reference to Twitter texts and the implementation of automatic systems capable to generate emojis to properly enrich the expressiveness of texts. We analyzed the results obtained by participating systems in the ITAMoji shared task organized as part of the Evalita 2018 evaluation campaign for the Italian language (Italian Emoji Prediction) and the results obtained in the contexts of the twin campaign Semeval 2018 organized on Twitter texts in English and Spanish. The thesis presents and discusses a qualitative and quantitative analysis of the results and of the most frequent errors produced by systems that participated in these campaigns also comparing in a comparative perspective: the common and language specific patterns are highlighted and a reflection on the most difficult emoji to predict is included. In the case of ITAMoji, the systems and human performance on the prediction task are compared on a portion of test data manually annotated by relying on the crowdsourcing platform Figure Eight.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
846952_tesifortunatocogliandro.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.68 MB
Formato Adobe PDF
2.68 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/39770