Quotidianamente gli utenti pubblicano sui social network numerosi contenuti, spesso condividendo informazioni personali e sensibili, non solo riguardanti la loro vita privata ma anche dei loro conoscenti. Molti utenti sono inconsapevoli della diffusione incontrollata delle informazioni nel Web e sottovalutano i possibili rischi legati alla privacy a cui potrebbero andare incontro. Si sente il bisogno di sviluppare un sistema di apprendimento automatico che riconosca se un post contiene informazioni sensibili in modo tale da avvisare l'utente prima della sua pubblicazione. Gli studi esistenti che hanno tentato di risolvere questo problema sono pochi e si concentrano sulla lingua inglese. Il più recente contributo è stato dato da Pensa et al. con i paper [16] e [24]. Hanno addestrato e messo a confronto diverse tipologie di modelli linguistici per classificare la sensibilità dei post scritti in lingua inglese. Hanno dimostrato che Google BERT, basato su Transformer, è il migliore modello linguistico tra quelli testati perché in grado di catturare molto bene il contesto. In questa tesi di laurea, si propone di risolvere il task sulla lingua italiana. Si presenta un corpus annotato di post in italiano e si esegue il fine-tuning di modelli linguistici pre-addestrati. Sono stati messi a confronto i principali modelli Transformers e due metodi alternativi LASER e MultiFiT. Il task è stato affrontato con due approcci: il primo consiste nell'addestrare un modello sul corpus italiano; il secondo si basa sul trasferimento zero-shot interlinguistico, quindi addestrare un modello sull'inglese per poi trasferire la conoscenza sull'italiano. Si discutono i risultati ottenuti, dimostrando che i modelli monolingue superano di gran lunga i multilingue e che il modello allo stato dell'arte è MultiFiT.
Analisi della sensibilità dei contenuti social scritti in Italiano mediante l'apprendimento di modelli linguistici basati su reti Transformer.
PEIRETTI, FEDERICO
2020/2021
Abstract
Quotidianamente gli utenti pubblicano sui social network numerosi contenuti, spesso condividendo informazioni personali e sensibili, non solo riguardanti la loro vita privata ma anche dei loro conoscenti. Molti utenti sono inconsapevoli della diffusione incontrollata delle informazioni nel Web e sottovalutano i possibili rischi legati alla privacy a cui potrebbero andare incontro. Si sente il bisogno di sviluppare un sistema di apprendimento automatico che riconosca se un post contiene informazioni sensibili in modo tale da avvisare l'utente prima della sua pubblicazione. Gli studi esistenti che hanno tentato di risolvere questo problema sono pochi e si concentrano sulla lingua inglese. Il più recente contributo è stato dato da Pensa et al. con i paper [16] e [24]. Hanno addestrato e messo a confronto diverse tipologie di modelli linguistici per classificare la sensibilità dei post scritti in lingua inglese. Hanno dimostrato che Google BERT, basato su Transformer, è il migliore modello linguistico tra quelli testati perché in grado di catturare molto bene il contesto. In questa tesi di laurea, si propone di risolvere il task sulla lingua italiana. Si presenta un corpus annotato di post in italiano e si esegue il fine-tuning di modelli linguistici pre-addestrati. Sono stati messi a confronto i principali modelli Transformers e due metodi alternativi LASER e MultiFiT. Il task è stato affrontato con due approcci: il primo consiste nell'addestrare un modello sul corpus italiano; il secondo si basa sul trasferimento zero-shot interlinguistico, quindi addestrare un modello sull'inglese per poi trasferire la conoscenza sull'italiano. Si discutono i risultati ottenuti, dimostrando che i modelli monolingue superano di gran lunga i multilingue e che il modello allo stato dell'arte è MultiFiT.File | Dimensione | Formato | |
---|---|---|---|
762860_peiretti-tesi-magistrale.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
7 MB
Formato
Adobe PDF
|
7 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/66471