The Internet has become the main place to exchange opinions, especially with the growing popularity of communication via social media, but often text is not enough to really understand the meaning of a post, other elements like emojis have become of common usage in interactions between users. This thesis aims to analyze, in the context of annotating processes aimed to label the presence of emotions and particularly hate in a corpus of social media data, how emojis included in the username influence the judgement given by annotators who evaluate a tweet. Meanwhile the study wants to understand if users who pair certain symbols to their screen name are more inclined to use hate speech in their messages. The messages collected to carry the research concern homophobia and transphobia, with an eye of regard to the ddl Zan law. The platform used to gather the data is the social media Twitter. The study includes an introduction on the importance of emojis on the Internet and how these extra-textual pictorial elements can be used to distinguish different ideologies. The collection phase of the data to annotate and analyze will be discussed, including the selection of the hashtags and keywords used to form the dataset, which got cleansed from redundant tweets. To support the annotating process a web platform was developed, whose interface allows the annotators to apply the annotation scheme chosen to evaluate the presence of phenomena related to hate speech contained in a selection of the gathered tweets. At the end, through graphs and other statistics the results of the annotating process will be analyzed trying to understand what tweets were judged differently due to the absence of the username and the motivations that can be hypothesized behind this change of opinion by the annotators.

Internet è diventato il principale luogo di scambio di opinioni, specialmente con il diffondersi della comunicazione via social media, ma spesso non si riesce facilmente a comprendere il messaggio veicolato da un post attraverso il solo testo, altri elementi come le emoji sono diventati di uso comune nelle comunicazioni degli utenti. Questa tesi vuole analizzare in particolare quanto, nel contesto di processi di annotazione mirati a etichettare la presenza di espressioni di emozioni e in particolare odio in corpora di dati di social media, le emoji contenute nel nome utente influiscono sul giudizio espresso dagli annotatori che valutano un tweet. Nel contempo lo studio si propone di investigare se utenti che accostano determinati simboli emoji al loro username siano più propensi all’uso di hate speech nei loro messaggi. I messaggi collezionati per portare avanti la ricerca riguardano l’omofobia e la transfobia, con un particolare focus su un tema molto dibattuto sui social: il DDL Zan. La piattaforma da cui sono stati estrapolati è il social media Twitter. Lo studio comprende un’introduzione sull’importanza delle emoji su internet e su come questi elementi pittorici extra-testuali possano venire usate dagli utenti come simbolo di riconoscimento per diverse ideologie. Verrà discussa la fase di collezione dei dati da annotare e analizzare, inclusa la selezione degli hashtag e delle keyword usate per la raccolta dei dati, e anche il passo successivo ovvero la formazione dei dataset, che include l’eliminazione di post ridondanti. Per supportare il processo di annotazione è stato sviluppata una piattaforma web apposita, che fornisce un’interfaccia per permettere agli annotatori di applicare lo schema di annotazione scelto per valutare la presenza di fenomeni legati all’hate speech in una selezione dei tweet raccolti. Infine, attraverso grafici e statistiche viene presentata un’analisi dei risultati dell’annotazione che offre una riflessione su quali post sono stati classificati in maniera diversa in base alla presenza del nome utente e sulle motivazioni che e’ possibile ipotizzare dietro questo cambio di opinione da parte degli annotatori.

EmojiShift: analisi computazionale dell’influenza delle emoji nell’interpre- tazione di messaggi nei social media.

MADEDDU, MARCO
2020/2021

Abstract

Internet è diventato il principale luogo di scambio di opinioni, specialmente con il diffondersi della comunicazione via social media, ma spesso non si riesce facilmente a comprendere il messaggio veicolato da un post attraverso il solo testo, altri elementi come le emoji sono diventati di uso comune nelle comunicazioni degli utenti. Questa tesi vuole analizzare in particolare quanto, nel contesto di processi di annotazione mirati a etichettare la presenza di espressioni di emozioni e in particolare odio in corpora di dati di social media, le emoji contenute nel nome utente influiscono sul giudizio espresso dagli annotatori che valutano un tweet. Nel contempo lo studio si propone di investigare se utenti che accostano determinati simboli emoji al loro username siano più propensi all’uso di hate speech nei loro messaggi. I messaggi collezionati per portare avanti la ricerca riguardano l’omofobia e la transfobia, con un particolare focus su un tema molto dibattuto sui social: il DDL Zan. La piattaforma da cui sono stati estrapolati è il social media Twitter. Lo studio comprende un’introduzione sull’importanza delle emoji su internet e su come questi elementi pittorici extra-testuali possano venire usate dagli utenti come simbolo di riconoscimento per diverse ideologie. Verrà discussa la fase di collezione dei dati da annotare e analizzare, inclusa la selezione degli hashtag e delle keyword usate per la raccolta dei dati, e anche il passo successivo ovvero la formazione dei dataset, che include l’eliminazione di post ridondanti. Per supportare il processo di annotazione è stato sviluppata una piattaforma web apposita, che fornisce un’interfaccia per permettere agli annotatori di applicare lo schema di annotazione scelto per valutare la presenza di fenomeni legati all’hate speech in una selezione dei tweet raccolti. Infine, attraverso grafici e statistiche viene presentata un’analisi dei risultati dell’annotazione che offre una riflessione su quali post sono stati classificati in maniera diversa in base alla presenza del nome utente e sulle motivazioni che e’ possibile ipotizzare dietro questo cambio di opinione da parte degli annotatori.
ITA
The Internet has become the main place to exchange opinions, especially with the growing popularity of communication via social media, but often text is not enough to really understand the meaning of a post, other elements like emojis have become of common usage in interactions between users. This thesis aims to analyze, in the context of annotating processes aimed to label the presence of emotions and particularly hate in a corpus of social media data, how emojis included in the username influence the judgement given by annotators who evaluate a tweet. Meanwhile the study wants to understand if users who pair certain symbols to their screen name are more inclined to use hate speech in their messages. The messages collected to carry the research concern homophobia and transphobia, with an eye of regard to the ddl Zan law. The platform used to gather the data is the social media Twitter. The study includes an introduction on the importance of emojis on the Internet and how these extra-textual pictorial elements can be used to distinguish different ideologies. The collection phase of the data to annotate and analyze will be discussed, including the selection of the hashtags and keywords used to form the dataset, which got cleansed from redundant tweets. To support the annotating process a web platform was developed, whose interface allows the annotators to apply the annotation scheme chosen to evaluate the presence of phenomena related to hate speech contained in a selection of the gathered tweets. At the end, through graphs and other statistics the results of the annotating process will be analyzed trying to understand what tweets were judged differently due to the absence of the username and the motivations that can be hypothesized behind this change of opinion by the annotators.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
883153_tesi_madeddu_marco_883153.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.53 MB
Formato Adobe PDF
1.53 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/82760