Situazioni di grande incertezza permettono a contenuti di disinformazione di propagarsi molto più facilmente e rapidamente, soprattutto sul web attraverso i principali social media. É il caso del corrente contesto pandemico che la popolazione mondiale sta fronteggiando: i social media diventano promotori di qualsiasi tipo di idea e opinione, spesso improvvisata e non verificata, talvolta con implicazioni dannose. La tesi si pone l’obiettivo di analizzare il contesto pandemico italiano su Twitter utilizzando tecniche di scraping e Natural Language Processing (NLP), allo scopo di comporre un dataset eterogeneo destinato allo studio della propagazione di notizie false o atte a disinformazione. Per conseguire tale obiettivo sono stati osservati (mediante scraping) i principali esponenti della politica italiana, i partiti più influenti, giornalisti e testate giornalistiche di rilievo (dalla seconda metà di aprile sino agli inizi di ottobre 2020). Ai tweets ottenuti dai profili poc’anzi citati viene unito un corposo dataset di tweets pubblicati da generici utenti italiani relativi alla pandemia, dal suo inizio fino al 31-08-2020. É stata quindi implementata una pipeline che ha lo scopo di recuperare profili Twitter e tweets di disinformazione, a partire da una base di tweets ricavata utilizzando un dizionario che raccoglie riferimenti a informazioni false o discutibili (di contesto pandemico). Successivamente dai profili di testate giornalistiche e giornalisti osservati (dei quali si assume l’autorevolezza) è stata ricavata una controparte di informazione destinata ad un task di classificazione binaria, con lo scopo di distinguere una notizia di disinformazione da una di informazione. Il classificatore è stato modellato tramite una rete neurale ricorrente.

Disinformazione sui social networks durante la pandemia da SARS-CoV-2: recupero dello scenario italiano attraverso tecniche di scraping e natural language processing

PEROTTI, RICCARDO
2019/2020

Abstract

Situazioni di grande incertezza permettono a contenuti di disinformazione di propagarsi molto più facilmente e rapidamente, soprattutto sul web attraverso i principali social media. É il caso del corrente contesto pandemico che la popolazione mondiale sta fronteggiando: i social media diventano promotori di qualsiasi tipo di idea e opinione, spesso improvvisata e non verificata, talvolta con implicazioni dannose. La tesi si pone l’obiettivo di analizzare il contesto pandemico italiano su Twitter utilizzando tecniche di scraping e Natural Language Processing (NLP), allo scopo di comporre un dataset eterogeneo destinato allo studio della propagazione di notizie false o atte a disinformazione. Per conseguire tale obiettivo sono stati osservati (mediante scraping) i principali esponenti della politica italiana, i partiti più influenti, giornalisti e testate giornalistiche di rilievo (dalla seconda metà di aprile sino agli inizi di ottobre 2020). Ai tweets ottenuti dai profili poc’anzi citati viene unito un corposo dataset di tweets pubblicati da generici utenti italiani relativi alla pandemia, dal suo inizio fino al 31-08-2020. É stata quindi implementata una pipeline che ha lo scopo di recuperare profili Twitter e tweets di disinformazione, a partire da una base di tweets ricavata utilizzando un dizionario che raccoglie riferimenti a informazioni false o discutibili (di contesto pandemico). Successivamente dai profili di testate giornalistiche e giornalisti osservati (dei quali si assume l’autorevolezza) è stata ricavata una controparte di informazione destinata ad un task di classificazione binaria, con lo scopo di distinguere una notizia di disinformazione da una di informazione. Il classificatore è stato modellato tramite una rete neurale ricorrente.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
906237_tesi_perotti.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 4.9 MB
Formato Adobe PDF
4.9 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/155622