Disinformazione sui social networks durante la pandemia da SARS-CoV-2: recupero dello scenario italiano attraverso tecniche di scraping e natural language processing

Situazioni di grande incertezza permettono a contenuti di disinformazione di propagarsi molto più facilmente e rapidamente, soprattutto sul web attraverso i principali social media. É il caso del corrente contesto pandemico che la popolazione mondiale sta fronteggiando: i social media diventano promotori di qualsiasi tipo di idea e opinione, spesso improvvisata e non verificata, talvolta con implicazioni dannose. La tesi si pone l’obiettivo di analizzare il contesto pandemico italiano su Twitter utilizzando tecniche di scraping e Natural Language Processing (NLP), allo scopo di comporre un dataset eterogeneo destinato allo studio della propagazione di notizie false o atte a disinformazione. Per conseguire tale obiettivo sono stati osservati (mediante scraping) i principali esponenti della politica italiana, i partiti più influenti, giornalisti e testate giornalistiche di rilievo (dalla seconda metà di aprile sino agli inizi di ottobre 2020). Ai tweets ottenuti dai profili poc’anzi citati viene unito un corposo dataset di tweets pubblicati da generici utenti italiani relativi alla pandemia, dal suo inizio fino al 31-08-2020. É stata quindi implementata una pipeline che ha lo scopo di recuperare profili Twitter e tweets di disinformazione, a partire da una base di tweets ricavata utilizzando un dizionario che raccoglie riferimenti a informazioni false o discutibili (di contesto pandemico). Successivamente dai profili di testate giornalistiche e giornalisti osservati (dei quali si assume l’autorevolezza) è stata ricavata una controparte di informazione destinata ad un task di classificazione binaria, con lo scopo di distinguere una notizia di disinformazione da una di informazione. Il classificatore è stato modellato tramite una rete neurale ricorrente.

Disinformazione sui social networks durante la pandemia da SARS-CoV-2: recupero dello scenario italiano attraverso tecniche di scraping e natural language processing

PEROTTI, RICCARDO

2019/2020

Abstract

Situazioni di grande incertezza permettono a contenuti di disinformazione di propagarsi molto più facilmente e rapidamente, soprattutto sul web attraverso i principali social media. É il caso del corrente contesto pandemico che la popolazione mondiale sta fronteggiando: i social media diventano promotori di qualsiasi tipo di idea e opinione, spesso improvvisata e non verificata, talvolta con implicazioni dannose. La tesi si pone l’obiettivo di analizzare il contesto pandemico italiano su Twitter utilizzando tecniche di scraping e Natural Language Processing (NLP), allo scopo di comporre un dataset eterogeneo destinato allo studio della propagazione di notizie false o atte a disinformazione. Per conseguire tale obiettivo sono stati osservati (mediante scraping) i principali esponenti della politica italiana, i partiti più influenti, giornalisti e testate giornalistiche di rilievo (dalla seconda metà di aprile sino agli inizi di ottobre 2020). Ai tweets ottenuti dai profili poc’anzi citati viene unito un corposo dataset di tweets pubblicati da generici utenti italiani relativi alla pandemia, dal suo inizio fino al 31-08-2020. É stata quindi implementata una pipeline che ha lo scopo di recuperare profili Twitter e tweets di disinformazione, a partire da una base di tweets ricavata utilizzando un dizionario che raccoglie riferimenti a informazioni false o discutibili (di contesto pandemico). Successivamente dai profili di testate giornalistiche e giornalisti osservati (dei quali si assume l’autorevolezza) è stata ricavata una controparte di informazione destinata ad un task di classificazione binaria, con lo scopo di distinguere una notizia di disinformazione da una di informazione. Il classificatore è stato modellato tramite una rete neurale ricorrente.

Scheda breve

	Facoltà/Dipartimento
	
				INFORMATICA
			
	Corso di studio
	
				INFORMATICA
			
	Lingua
	
				ITA
			
	Relatrice / Relatore
	
				DI CARO, Luigi
			
	Modalità consultazione tesi
	
				IMPORT DA TESIONLINE
			
	Appare nelle tipologie:
	
				Corso di Laurea Magistrale

File in questo prodotto:

File	Dimensione	Formato
906237_tesi_perotti.pdf non disponibili Tipologia: Altro materiale allegato Dimensione 4.9 MB Formato Adobe PDF	4.9 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/155622