Network polarization is a phenomenon in which there is a division in groups distinct by contrasting opinions or beliefs and it would be seen as a direct consequence of homophily. Despite the uncertainty of what role social networks play, they constitute a place where this phenomenon manifests itself intensively. It should be monitored and investigated since it causes tangible consequences that influence dynamic processes on networks, i.e. the creation of echo-chambers which affect disinformation spreading. The subject of study in this thesis is the polarization state of the networks, defined as a 2D probability density function where the two axes represent the average opinion of in-neighbours (followers) and out-neighbours (following) of users in a social network. Since it is directly related to the dynamics with which users express opinions, several factors like heterogeneity in the propensity to publish content, variability of the intensity with which their opinions are expressed and the possibility that they change over time, all make a diachronic approach to study useful. On the other hand, researchers need to manage large networks that make real-time control of each user expensive. For this reason, the purpose of this thesis is to identify a sampling strategy of the networks through which we can reconstruct the polarization state of the entire network with a low margin of error. Ideally, this approach could pave the way for a contextual monitoring tool that acts as a thermometer of the phenomenon close to important events. In order to develop this study, we divided the work in two blocks: firstly, a simulation approach inspired by previous work such as Coscia et al. 2020 that aims to propose a model which simulates the activity and the interactions in a social network where the relationship between users is asymmetric (followers and following), trying to harness some aspect of the polarization; secondly, a case study analysis collecting data from Twitter’s debate on Rome’s 2021 municipal election, where we use machine learning tools for stance detection at user level. We computed the polarization state of the static follower networks and of the time varying interaction networks from the simulation and case study. Generally speaking, it consists of calculating the mean value of the alignment of in-neighbours and out-neighbours for each node, then performing a Kernel Density Estimation with a gaussian kernel. Since we aim to reconstruct it, we select a fraction of canary users with which we try to estimate the general p.d.f., evaluating reconstruction performance through Kullback-Leibler divergence. We compared several selection strategies based on centrality scores of users such as degree and a random strategy, finding that the random one outperforms others in follower networks. On the other hand, when we computed the polarization state in time varying networks aggregating over a 7-day period but selecting the fraction of canary through the score of centrality obtained from total evolution period aggregation, the random strategy has the worst performance and we can see that some such as PageRank, show a phase transition in correspondence with the selection of a critical fraction of users, where KL divergence collapses to approximately zero. This fraction is about 0.5 in the simulation networks and from 0.2 to 0.7 for real networks in the case study. In closing, we quantified the polarization in each network using the RWC score.
La polarizzazione della rete è un fenomeno in cui vi è una divisione in gruppi distinti da opinioni o credenze nettamente contrastanti; essa potrebbe essere vista come una diretta conseguenza dell'omofilia, che significa la tendenza degli individui a relazionarsi con i loro simili. Nonostante l'incertezza su che ruolo giochino i social network, essi costituiscono un luogo in cui questo fenomeno si manifesta intensamente che dovrebbe quindi essere monitorato e studiato in quanto causa conseguenze tangibili che modificano i processi dinamici sulle reti, come ad esempio la creazione di eco-chamber che influenzano la diffusione della disinformazione. Il soggetto di studio in questa tesi è lo stato di polarizzazione delle reti, definito come una funzione di densità di probabilità 2D in cui i due assi rappresentano l'opinione media dei follower e dei seguiti di un utente in un social network. Poiché esso è direttamente correlato alle dinamiche con cui gli utenti esprimono le proprie opinioni, può risultare utile un approccio diacronico allo studio. D'altra parte, i ricercatori devono gestire grandi reti che rendono dispendioso il controllo in tempo reale di ogni utente. Per questo motivo, lo scopo di questa tesi è quello di identificare una strategia di campionamento delle reti attraverso la quale possiamo ricostruire lo stato di polarizzazione dell'intera rete con un basso margine di errore. Per sviluppare questo studio abbiamo diviso il lavoro in due blocchi: in primis, un approccio di simulazione ispirato a lavori precedenti come Coscia e Rossi 2020 che mira a proporre un modello che simuli l'attività e le interazioni in un social network in cui il rapporto tra utenti è asimmetrico (follower e seguiti), cercando di imbrigliare alcuni aspetti della polarizzazione; in secondo luogo, un'analisi su un caso di studio, raccogliendo dati dal dibattito di Twitter sulle elezioni comunali di Roma 2021, in cui utilizziamo strumenti di apprendimento automatico per la stance detection a livello utente, come in Lai et al. 2019. In seguito abbiamo valutato lo stato di polarizzazione delle follower network statiche e delle time-varying network date dalle interazioni tra gli utenti, collezionate nelle simulazione e nel caso di studio. In generale, ciò consiste nel calcolare il valore medio dell'allineamento di in-neighbours e out-neighbours per ogni nodo, quindi nell’ eseguire un algoritmo KDE con kernel gaussiano. Siccome vogliamo ricostruire lo stato di polarizzazione, selezioniamo una frazione di utenti con cui cerchiamo di stimare la pdf. generale, valutando le prestazioni di ricostruzione attraverso divergenza di Kullback-Leibler. Abbiamo confrontato diverse strategie di selezione basate sugli score di centralità degli utenti, come Degree, e una casuale, trovando che quella casuale ottiene le migliori performance nelle reti di follower. D'altra parte, quando abbiamo valutato lo stato di polarizzazione nelle time-varying network aggregate in periodi temporali di 7 giorni, la strategia casuale ha le prestazioni peggiori e abbiamo osservato che alcune come PageRank mostrano una transizione di fase in corrispondenza con la selezione di una certa frazione di utenti (0.5 nella rete di simulazione e tra 0.2 e 0.6 per le reti reali nel caso di studio), dove la divergenza KL crolla a circa zero. In conclusione, abbiamo quantificato la polarizzazione in ogni rete tramite RWC score e abbiamo valutato se esista una strategia di selezione ottimale.
Simulazione e monitoraggio della polarizzazione in una rete: un caso di studio sul dibattito politico di Roma 2021 su Twitter
PAOLETTI, GIORDANO
2020/2021
Abstract
La polarizzazione della rete è un fenomeno in cui vi è una divisione in gruppi distinti da opinioni o credenze nettamente contrastanti; essa potrebbe essere vista come una diretta conseguenza dell'omofilia, che significa la tendenza degli individui a relazionarsi con i loro simili. Nonostante l'incertezza su che ruolo giochino i social network, essi costituiscono un luogo in cui questo fenomeno si manifesta intensamente che dovrebbe quindi essere monitorato e studiato in quanto causa conseguenze tangibili che modificano i processi dinamici sulle reti, come ad esempio la creazione di eco-chamber che influenzano la diffusione della disinformazione. Il soggetto di studio in questa tesi è lo stato di polarizzazione delle reti, definito come una funzione di densità di probabilità 2D in cui i due assi rappresentano l'opinione media dei follower e dei seguiti di un utente in un social network. Poiché esso è direttamente correlato alle dinamiche con cui gli utenti esprimono le proprie opinioni, può risultare utile un approccio diacronico allo studio. D'altra parte, i ricercatori devono gestire grandi reti che rendono dispendioso il controllo in tempo reale di ogni utente. Per questo motivo, lo scopo di questa tesi è quello di identificare una strategia di campionamento delle reti attraverso la quale possiamo ricostruire lo stato di polarizzazione dell'intera rete con un basso margine di errore. Per sviluppare questo studio abbiamo diviso il lavoro in due blocchi: in primis, un approccio di simulazione ispirato a lavori precedenti come Coscia e Rossi 2020 che mira a proporre un modello che simuli l'attività e le interazioni in un social network in cui il rapporto tra utenti è asimmetrico (follower e seguiti), cercando di imbrigliare alcuni aspetti della polarizzazione; in secondo luogo, un'analisi su un caso di studio, raccogliendo dati dal dibattito di Twitter sulle elezioni comunali di Roma 2021, in cui utilizziamo strumenti di apprendimento automatico per la stance detection a livello utente, come in Lai et al. 2019. In seguito abbiamo valutato lo stato di polarizzazione delle follower network statiche e delle time-varying network date dalle interazioni tra gli utenti, collezionate nelle simulazione e nel caso di studio. In generale, ciò consiste nel calcolare il valore medio dell'allineamento di in-neighbours e out-neighbours per ogni nodo, quindi nell’ eseguire un algoritmo KDE con kernel gaussiano. Siccome vogliamo ricostruire lo stato di polarizzazione, selezioniamo una frazione di utenti con cui cerchiamo di stimare la pdf. generale, valutando le prestazioni di ricostruzione attraverso divergenza di Kullback-Leibler. Abbiamo confrontato diverse strategie di selezione basate sugli score di centralità degli utenti, come Degree, e una casuale, trovando che quella casuale ottiene le migliori performance nelle reti di follower. D'altra parte, quando abbiamo valutato lo stato di polarizzazione nelle time-varying network aggregate in periodi temporali di 7 giorni, la strategia casuale ha le prestazioni peggiori e abbiamo osservato che alcune come PageRank mostrano una transizione di fase in corrispondenza con la selezione di una certa frazione di utenti (0.5 nella rete di simulazione e tra 0.2 e 0.6 per le reti reali nel caso di studio), dove la divergenza KL crolla a circa zero. In conclusione, abbiamo quantificato la polarizzazione in ogni rete tramite RWC score e abbiamo valutato se esista una strategia di selezione ottimale.File | Dimensione | Formato | |
---|---|---|---|
939697_tesimagistralegiordanopaoletti.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
7.65 MB
Formato
Adobe PDF
|
7.65 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/78887