Per identificare e rimuovere i discorsi d'odio online (Hate Speech), i principali social network si affidano alle segnalazioni degli utenti e alla revisione da parte di team specializzati dei contenuti segnalati. Tuttavia, in questo modo, viene portata all'attenzione dei team solo una parte dei contenuti, che richiedono tempo per essere visionati singolarmente. Inoltre, la scelta dell'eliminazione dipende dal soggetto che legge il post e implica un certo grado di soggettività. La presenza di un sistema in grado di analizzare tutti i contenuti pubblicati ed eliminare quelli contenenti odio permetterebbe di esaminare un maggiore numero di dati in un tempo minore e ottenere risultati più oggettivi. Tra i vari obiettivi della Sentiment Analysis, un'analisi computazionale dei sentimenti e delle opinioni espressi nei contenuti generati in rete, c'è anche quello di identificare automaticamente l'Hate Speech. La tesi considera gli errori compiuti da sistemi che esaminano i post di Twitter per identificare quelli contenenti odio e che, essendo in contrasto con le regole della piattaforma, andrebbero rimossi. Lo scopo è quello di identificare, quando presenti, le caratteristiche linguistiche e strutturali che potrebbero aver portato i sistemi a una errata classificazione del contenuto del tweet. In particolare, sono approfonditi i risultati dell'HaSpeeDe-TW (Hate Speech Detection-Twitter) task di EVALITA, la campagna di valutazione periodica dei sistemi di NLP (elaborazione del linguaggio naturale) per l'italiano. Ai partecipanti al task è stato distribuito il contenuto dei tweet, il loro numero identificativo e l'etichetta 0 per quelli non contenenti Hate Speech e 1 per quelli che lo contenevano. Tuttavia, per analizzare meglio il tipo di errori si fa riferimento anche ad altre etichette, attribuite ai post in fase di creazione del corpus. In particolare, vengono considerati l'aggressività e l'offensività, suddivise in tre gradi di intensità, la presenza di ironia e stereotipi e, infine, il target. In ogni sezione della tesi, una etichetta e gli errori presenti al suo interno sono analizzati prima quantitativamente e poi qualitativamente e linguisticamente. Sono considerate le risposte date dalla maggioranza dei cinque migliori sistemi che hanno partecipato al task. La scelta di analizzare i tweet tenendo separate, con alcune eccezioni, le etichette è stata una scelta arbitraria, poiché tutte le caratteristiche di un post influiscono sulla risposta data dai sistemi. Tuttavia, considerare gli errori secondo queste ulteriori etichette, oltre la semplice presenza o meno di odio, permette di ridurre il numero di tweet visionati di volta in volta e di raggrupparli secondo caratteristiche simili in modo da individuare più facilmente le similitudini. Dopo aver analizzato le etichette già attribuite al corpus, ne sono state aggiunte altre. Infatti, durante lo studio di alcune combinazioni di caratteristiche sono state notate delle particolarità. Per approfondire queste particolarità e verificarne la presenza nell'intero test set, esse sono state annotate e prese in considerazione singolarmente. Infine, sono state considerate caratteristiche strutturali dei tweet, come la presenza di link o hashtag multi-parola e lettere maiuscole.
Per identificare e rimuovere i discorsi d'odio online (Hate Speech), i principali social network si affidano alle segnalazioni degli utenti e alla revisione da parte di team specializzati dei contenuti segnalati. Tuttavia, in questo modo, viene portata all'attenzione dei team solo una parte dei contenuti, che richiedono tempo per essere visionati singolarmente. Inoltre, la scelta dell'eliminazione dipende dal soggetto che legge il post e implica un certo grado di soggettività. La presenza di un sistema in grado di analizzare tutti i contenuti pubblicati ed eliminare quelli contenenti odio permetterebbe di esaminare un maggiore numero di dati in un tempo minore e ottenere risultati più oggettivi. Tra i vari obiettivi della Sentiment Analysis, un'analisi computazionale dei sentimenti e delle opinioni espressi nei contenuti generati in rete, c'è anche quello di identificare automaticamente l'Hate Speech. La tesi considera gli errori compiuti da sistemi che esaminano i post di Twitter per identificare quelli contenenti odio e che, essendo in contrasto con le regole della piattaforma, andrebbero rimossi. Lo scopo è quello di identificare, quando presenti, le caratteristiche linguistiche e strutturali che potrebbero aver portato i sistemi a una errata classificazione del contenuto del tweet. In particolare, sono approfonditi i risultati dell'HaSpeeDe-TW (Hate Speech Detection-Twitter) task di EVALITA, la campagna di valutazione periodica dei sistemi di NLP (elaborazione del linguaggio naturale) per l'italiano. Ai partecipanti al task è stato distribuito il contenuto dei tweet, il loro numero identificativo e l'etichetta 0 per quelli non contenenti Hate Speech e 1 per quelli che lo contenevano. Tuttavia, per analizzare meglio il tipo di errori si fa riferimento anche ad altre etichette, attribuite ai post in fase di creazione del corpus. In particolare, vengono considerati l'aggressività e l'offensività, suddivise in tre gradi di intensità, la presenza di ironia e stereotipi e, infine, il target. In ogni sezione della tesi, una etichetta e gli errori presenti al suo interno sono analizzati prima quantitativamente e poi qualitativamente e linguisticamente. Sono considerate le risposte date dalla maggioranza dei cinque migliori sistemi che hanno partecipato al task. La scelta di analizzare i tweet tenendo separate, con alcune eccezioni, le etichette è stata una scelta arbitraria, poiché tutte le caratteristiche di un post influiscono sulla risposta data dai sistemi. Tuttavia, considerare gli errori secondo queste ulteriori etichette, oltre la semplice presenza o meno di odio, permette di ridurre il numero di tweet visionati di volta in volta e di raggrupparli secondo caratteristiche simili in modo da individuare più facilmente le similitudini. Dopo aver analizzato le etichette già attribuite al corpus, ne sono state aggiunte altre. Infatti, durante lo studio di alcune combinazioni di caratteristiche sono state notate delle particolarità. Per approfondire queste particolarità e verificarne la presenza nell'intero test set, esse sono state annotate e prese in considerazione singolarmente. Infine, sono state considerate caratteristiche strutturali dei tweet, come la presenza di link o hashtag multi-parola e lettere maiuscole.
Error Analysis in the Task of Hate Speech Detection: the Case of HaSpeeDe-TW at EVALITA 2018
FRANCESCONI, CHIARA
2018/2019
Abstract
Per identificare e rimuovere i discorsi d'odio online (Hate Speech), i principali social network si affidano alle segnalazioni degli utenti e alla revisione da parte di team specializzati dei contenuti segnalati. Tuttavia, in questo modo, viene portata all'attenzione dei team solo una parte dei contenuti, che richiedono tempo per essere visionati singolarmente. Inoltre, la scelta dell'eliminazione dipende dal soggetto che legge il post e implica un certo grado di soggettività. La presenza di un sistema in grado di analizzare tutti i contenuti pubblicati ed eliminare quelli contenenti odio permetterebbe di esaminare un maggiore numero di dati in un tempo minore e ottenere risultati più oggettivi. Tra i vari obiettivi della Sentiment Analysis, un'analisi computazionale dei sentimenti e delle opinioni espressi nei contenuti generati in rete, c'è anche quello di identificare automaticamente l'Hate Speech. La tesi considera gli errori compiuti da sistemi che esaminano i post di Twitter per identificare quelli contenenti odio e che, essendo in contrasto con le regole della piattaforma, andrebbero rimossi. Lo scopo è quello di identificare, quando presenti, le caratteristiche linguistiche e strutturali che potrebbero aver portato i sistemi a una errata classificazione del contenuto del tweet. In particolare, sono approfonditi i risultati dell'HaSpeeDe-TW (Hate Speech Detection-Twitter) task di EVALITA, la campagna di valutazione periodica dei sistemi di NLP (elaborazione del linguaggio naturale) per l'italiano. Ai partecipanti al task è stato distribuito il contenuto dei tweet, il loro numero identificativo e l'etichetta 0 per quelli non contenenti Hate Speech e 1 per quelli che lo contenevano. Tuttavia, per analizzare meglio il tipo di errori si fa riferimento anche ad altre etichette, attribuite ai post in fase di creazione del corpus. In particolare, vengono considerati l'aggressività e l'offensività, suddivise in tre gradi di intensità, la presenza di ironia e stereotipi e, infine, il target. In ogni sezione della tesi, una etichetta e gli errori presenti al suo interno sono analizzati prima quantitativamente e poi qualitativamente e linguisticamente. Sono considerate le risposte date dalla maggioranza dei cinque migliori sistemi che hanno partecipato al task. La scelta di analizzare i tweet tenendo separate, con alcune eccezioni, le etichette è stata una scelta arbitraria, poiché tutte le caratteristiche di un post influiscono sulla risposta data dai sistemi. Tuttavia, considerare gli errori secondo queste ulteriori etichette, oltre la semplice presenza o meno di odio, permette di ridurre il numero di tweet visionati di volta in volta e di raggrupparli secondo caratteristiche simili in modo da individuare più facilmente le similitudini. Dopo aver analizzato le etichette già attribuite al corpus, ne sono state aggiunte altre. Infatti, durante lo studio di alcune combinazioni di caratteristiche sono state notate delle particolarità. Per approfondire queste particolarità e verificarne la presenza nell'intero test set, esse sono state annotate e prese in considerazione singolarmente. Infine, sono state considerate caratteristiche strutturali dei tweet, come la presenza di link o hashtag multi-parola e lettere maiuscole.File | Dimensione | Formato | |
---|---|---|---|
770198_tesi_chiarafrancesconi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.29 MB
Formato
Adobe PDF
|
1.29 MB | Adobe PDF |
Se sei interessato/a a consultare l'elaborato, vai nella sezione Home in alto a destra, dove troverai le informazioni su come richiederlo. I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/48415