La diffusione sempre maggiore dei Social Media e il loro facile accesso a tutta la popolazione ha portato una grande trasformazione, non solo per quanto riguarda il fare informazione, ma soprattutto nel modo di esprimersi online. Recentemente a causa delle sempre più frequenti minacce e insulti sui Social si è molto sentito parlare di Hate Speech e dei metodi di studio di questo fenomeno. La Sentiment Analysis (SA) si occupa di studiare un insieme di messaggi, che possono essere scaricati dai vari Social, per analizzare il sentimento della popolazione riguardo non solo specifici brand o prodotti ma anche riguardanti una politica del governo, un discorso di un leader politico o un evento di cronaca. Lo studio della trasmissione e quindi del contagio delle emozioni tra gli esseri umani è sempre esistito, privilegiando lo scenario offline. Tuttavia, si è iniziato a domandarsi se anche i commenti, i post, i tweet online hanno la stessa capacità di trasmissione e contagio, rendendo la diffusione di Hate Speech pericolosa anche nella vita offline. Analogamente con quanto accade per il Data Mining, lo studio dei testi online ha a che fare con una grande quantità di parole e richiede l'aiuto di macchine ed algoritmi per un'analisi esaustiva del fenomeno di interesse. Il problema si pone dove una macchina non riesce a cogliere le innumerevoli sfumature del linguaggio, come l'ironia e le figure retoriche e deve perciò essere istruita nel riconoscere i messaggi positivi da quelli negativi per un brand, una politica, un prodotto e via dicendo. Questo processo avviene tramite approcci di Sentiment Analysis, Natural Language Processing (NLP) e linguistica computazionale. Per istruire una macchina al riconoscimento automatico del linguaggio è necessario infatti studiare il linguaggio naturale umano, che tuttavia presenta diverse criticità. Per questo si rende necessario l'intervento a priori di annotatori umani. Essi svolgono un lavoro fondamentale e delicato, ogni individuo ha difatti un background familiare e sociale che influenza in modo più o meno conscio l'interpretazione di un testo, si parla cioè di bias implicito degli annotatori. L'ironia, lo stereotipo, l'offensività, l'aggressività di un messaggio non sono di lettura univoca e uno stesso testo può essere letto in modi differenti. L'obiettivo di questo lavoro è quello di far annotare un corpus di 2000 tweet sul tema degli stranieri a sei diversi operatori, tre di nazionalità italiana e tre stranieri. Per ogni tweet ogni operatore ha dovuto evidenziare l'assenza o la presenza di Hate Speech, di pregiudizio, d'ironia e il livello di offensività ed aggressività seguendo delle apposite linee guida. In ultima analisi sono state studiate le differenze di etichettatura a livello di tweet, di annotatore, di coppie e triple di annotatori, utilizzando diverse misure di accordo, cercando di evidenziare il carattere soggettivo delle sei diverse etichettature.
Hate Speech e il Bias introdotto dagli operatori nell'analisi di un corpus
BAROTTO, PATRIZIA
2018/2019
Abstract
La diffusione sempre maggiore dei Social Media e il loro facile accesso a tutta la popolazione ha portato una grande trasformazione, non solo per quanto riguarda il fare informazione, ma soprattutto nel modo di esprimersi online. Recentemente a causa delle sempre più frequenti minacce e insulti sui Social si è molto sentito parlare di Hate Speech e dei metodi di studio di questo fenomeno. La Sentiment Analysis (SA) si occupa di studiare un insieme di messaggi, che possono essere scaricati dai vari Social, per analizzare il sentimento della popolazione riguardo non solo specifici brand o prodotti ma anche riguardanti una politica del governo, un discorso di un leader politico o un evento di cronaca. Lo studio della trasmissione e quindi del contagio delle emozioni tra gli esseri umani è sempre esistito, privilegiando lo scenario offline. Tuttavia, si è iniziato a domandarsi se anche i commenti, i post, i tweet online hanno la stessa capacità di trasmissione e contagio, rendendo la diffusione di Hate Speech pericolosa anche nella vita offline. Analogamente con quanto accade per il Data Mining, lo studio dei testi online ha a che fare con una grande quantità di parole e richiede l'aiuto di macchine ed algoritmi per un'analisi esaustiva del fenomeno di interesse. Il problema si pone dove una macchina non riesce a cogliere le innumerevoli sfumature del linguaggio, come l'ironia e le figure retoriche e deve perciò essere istruita nel riconoscere i messaggi positivi da quelli negativi per un brand, una politica, un prodotto e via dicendo. Questo processo avviene tramite approcci di Sentiment Analysis, Natural Language Processing (NLP) e linguistica computazionale. Per istruire una macchina al riconoscimento automatico del linguaggio è necessario infatti studiare il linguaggio naturale umano, che tuttavia presenta diverse criticità. Per questo si rende necessario l'intervento a priori di annotatori umani. Essi svolgono un lavoro fondamentale e delicato, ogni individuo ha difatti un background familiare e sociale che influenza in modo più o meno conscio l'interpretazione di un testo, si parla cioè di bias implicito degli annotatori. L'ironia, lo stereotipo, l'offensività, l'aggressività di un messaggio non sono di lettura univoca e uno stesso testo può essere letto in modi differenti. L'obiettivo di questo lavoro è quello di far annotare un corpus di 2000 tweet sul tema degli stranieri a sei diversi operatori, tre di nazionalità italiana e tre stranieri. Per ogni tweet ogni operatore ha dovuto evidenziare l'assenza o la presenza di Hate Speech, di pregiudizio, d'ironia e il livello di offensività ed aggressività seguendo delle apposite linee guida. In ultima analisi sono state studiate le differenze di etichettatura a livello di tweet, di annotatore, di coppie e triple di annotatori, utilizzando diverse misure di accordo, cercando di evidenziare il carattere soggettivo delle sei diverse etichettature.File | Dimensione | Formato | |
---|---|---|---|
762328_tesi_barotto_patrizia.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
2.22 MB
Formato
Adobe PDF
|
2.22 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/54712