Situazioni di grande incertezza permettono a contenuti di disinformazione di propagarsi molto più facilmente e rapidamente, soprattutto sul web attraverso i principali social media. É il caso del corrente contesto pandemico che la popolazione mondiale sta fronteggiando: i social media diventano promotori di qualsiasi tipo di idea e opinione, spesso improvvisata e non verificata, talvolta con implicazioni dannose. La tesi si pone l’obiettivo di analizzare il contesto pandemico italiano su Twitter utilizzando tecniche di scraping e Natural Language Processing (NLP), allo scopo di comporre un dataset eterogeneo destinato allo studio della propagazione di notizie false o atte a disinformazione. Per conseguire tale obiettivo sono stati osservati (mediante scraping) i principali esponenti della politica italiana, i partiti più influenti, giornalisti e testate giornalistiche di rilievo (dalla seconda metà di aprile sino agli inizi di ottobre 2020). Ai tweets ottenuti dai profili poc’anzi citati viene unito un corposo dataset di tweets pubblicati da generici utenti italiani relativi alla pandemia, dal suo inizio fino al 31-08-2020. É stata quindi implementata una pipeline che ha lo scopo di recuperare profili Twitter e tweets di disinformazione, a partire da una base di tweets ricavata utilizzando un dizionario che raccoglie riferimenti a informazioni false o discutibili (di contesto pandemico). Successivamente dai profili di testate giornalistiche e giornalisti osservati (dei quali si assume l’autorevolezza) è stata ricavata una controparte di informazione destinata ad un task di classificazione binaria, con lo scopo di distinguere una notizia di disinformazione da una di informazione. Il classificatore è stato modellato tramite una rete neurale ricorrente.
Disinformazione sui social networks durante la pandemia da SARS-CoV-2: recupero dello scenario italiano attraverso tecniche di scraping e natural language processing
PEROTTI, RICCARDO
2019/2020
Abstract
Situazioni di grande incertezza permettono a contenuti di disinformazione di propagarsi molto più facilmente e rapidamente, soprattutto sul web attraverso i principali social media. É il caso del corrente contesto pandemico che la popolazione mondiale sta fronteggiando: i social media diventano promotori di qualsiasi tipo di idea e opinione, spesso improvvisata e non verificata, talvolta con implicazioni dannose. La tesi si pone l’obiettivo di analizzare il contesto pandemico italiano su Twitter utilizzando tecniche di scraping e Natural Language Processing (NLP), allo scopo di comporre un dataset eterogeneo destinato allo studio della propagazione di notizie false o atte a disinformazione. Per conseguire tale obiettivo sono stati osservati (mediante scraping) i principali esponenti della politica italiana, i partiti più influenti, giornalisti e testate giornalistiche di rilievo (dalla seconda metà di aprile sino agli inizi di ottobre 2020). Ai tweets ottenuti dai profili poc’anzi citati viene unito un corposo dataset di tweets pubblicati da generici utenti italiani relativi alla pandemia, dal suo inizio fino al 31-08-2020. É stata quindi implementata una pipeline che ha lo scopo di recuperare profili Twitter e tweets di disinformazione, a partire da una base di tweets ricavata utilizzando un dizionario che raccoglie riferimenti a informazioni false o discutibili (di contesto pandemico). Successivamente dai profili di testate giornalistiche e giornalisti osservati (dei quali si assume l’autorevolezza) è stata ricavata una controparte di informazione destinata ad un task di classificazione binaria, con lo scopo di distinguere una notizia di disinformazione da una di informazione. Il classificatore è stato modellato tramite una rete neurale ricorrente.File | Dimensione | Formato | |
---|---|---|---|
906237_tesi_perotti.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
4.9 MB
Formato
Adobe PDF
|
4.9 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/155622