Il problema della privacy su internet ha guadagnato molta attenzione negli ultimi dieci anni grazie al successo delle reti sociali online e altri servizi di social media che espongono la nostra vita al grande pubblico. Oltre ai dati personali e comportamentali raccolti più o meno legittimamente da aziende e organizzazioni, ci sono tonnellate di contenuti generati dagli utenti stessi, sotto forma di messaggi di testo e commenti, foto e video che, molto spesso, catturano e rappresentano momenti privati della nostra vita. Con la disponibilità di contenuti generati dagli utenti nel web, gli utenti malintenzionati dispongono di enormi archivi di informazioni private (e spesso sensibili) su una gran parte della popolazione mondiale - abitudini, famiglia, hobby, salute, filosofia di vita, ecc.- che espongono i protagonisti di questi contenuti a rischi criminali (informatici), tra cui il furto di identità, lo stalking, le frodi, il cyberbullismo o “semplicemente” la discriminazione sul posto di lavoro o nella vita in generale. In questa tesi, utilizzeremo una nuova attività di data mining chiamata content sensitivity analysis, che permetterà di valutare la nocività di qualsiasi tipo di contenuto, assegnando un punteggio sulla base del grado di sensibilità del contenuto. Partendo da un dataset di tweet anonimi (sensibili e non sensibili), proporremo alcuni risultati ottenuti applicando algoritmi di deep learning, utilizzando diverse due tipologie di reti: Convolutional neural network (CNN) e la Long short-term memory (LSTM), una particolare tipologia di Recurrent neural network (RNN). I risultati saranno calcolati sia su dati grezzi sia mediante l'uso di GloVe, è un algoritmo di apprendimento non supervisionato per ottenere rappresentazioni vettoriali per parole. ​

Algoritmi di deep learning per la content sensitivity analysis.

FALCO, ERICA
2019/2020

Abstract

Il problema della privacy su internet ha guadagnato molta attenzione negli ultimi dieci anni grazie al successo delle reti sociali online e altri servizi di social media che espongono la nostra vita al grande pubblico. Oltre ai dati personali e comportamentali raccolti più o meno legittimamente da aziende e organizzazioni, ci sono tonnellate di contenuti generati dagli utenti stessi, sotto forma di messaggi di testo e commenti, foto e video che, molto spesso, catturano e rappresentano momenti privati della nostra vita. Con la disponibilità di contenuti generati dagli utenti nel web, gli utenti malintenzionati dispongono di enormi archivi di informazioni private (e spesso sensibili) su una gran parte della popolazione mondiale - abitudini, famiglia, hobby, salute, filosofia di vita, ecc.- che espongono i protagonisti di questi contenuti a rischi criminali (informatici), tra cui il furto di identità, lo stalking, le frodi, il cyberbullismo o “semplicemente” la discriminazione sul posto di lavoro o nella vita in generale. In questa tesi, utilizzeremo una nuova attività di data mining chiamata content sensitivity analysis, che permetterà di valutare la nocività di qualsiasi tipo di contenuto, assegnando un punteggio sulla base del grado di sensibilità del contenuto. Partendo da un dataset di tweet anonimi (sensibili e non sensibili), proporremo alcuni risultati ottenuti applicando algoritmi di deep learning, utilizzando diverse due tipologie di reti: Convolutional neural network (CNN) e la Long short-term memory (LSTM), una particolare tipologia di Recurrent neural network (RNN). I risultati saranno calcolati sia su dati grezzi sia mediante l'uso di GloVe, è un algoritmo di apprendimento non supervisionato per ottenere rappresentazioni vettoriali per parole. ​
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
782438_tesi_falco_erica.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.26 MB
Formato Adobe PDF
2.26 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/156563