In questa tesi, a carattere sperimentale, espongo il lavoro da me svolto per lo sviluppo del CS-IDS (Cross-System Identity Discovery System), un servizio di identity crawler finalizzato a identificare i vari profili pubblici di un utente sul web e utilizzarli per inferire nuovi dati. In questi ultimi anni sono nati molteplici servizi basati sulla personalizzazione per i quali i dati utenti sono fondamentali. Inoltre il proliferare dei social network ha portato sulla rete una grande massa di informazioni potenzialmente preziose in questo senso, ma difficilmente recuperabili. Il lavoro qui presentato propone varie tecniche innovative per identificare correttamente i profili di una persona sparsi su differenti tipi di sistemi online e integrarli tra loro. Un servizio di terze parti può interrogare il CS-IDS fornendogli un profilo utente incompleto perché venga arricchito con altri dati della stessa persona presenti sui social network e altri sistemi online. Nel caso in cui questo utente abbia uno o più profili su questi sistemi, e il CS-IDS riesca a identificarli, esso restituirà un profilo aggregato derivante dalla combinazione intelligente dei nuovi attributi scoperti, associati a un fattore di certezza. Va evidenziato come il tutto avvenga nel rispetto della privacy: a essere recuperati sono infatti solo i dati pubblici dell'utente. L'approccio del lavoro si basa sul matching tra attributi, su studi sulla struttura dei nickname e sul confronto incrociato dei dati su più sistemi. Particolare attenzione è stata dedicata alle inferenze sugli attributi, elaborando una tecnica per ridurre al minimo i falsi positivi, al fine di consentire all'applicazione che si appoggi al CS-IDS un grado di fiducia ottimale. Il CS-IDS è un progetto in divenire nato nel giugno del 2009. Fino a data odierna sono sono stati prodotti tre prototipi, analizzati e confrontati nei vari capitoli. Il sistema ha visto la mia attiva partecipazione a tutte le fasi di progettazione, sviluppo degli algoritmi, testing, elaborazione dei prototipi, procedure di valutazione, discussione e analisi dei risultati. Nell'ottobre del 2009 i risultati preliminari sono stati presentati alla IADIS international Conference WWW/Internet. Nella tesi si dimostra l'efficacia dell'approccio presentato con una valutazione approfondita sui dati ritrovati. In particolare si prova come l'ultima versione sia in grado di recuperare attributi di un utente, quali sesso, età, città di nascita o professione, con una precision superiore al 97% e una recall tra il 50% e il 60%. Infine si può rilevare come le tecniche qui esposte non siano limitate alla realizzazione di un servizio di identity crawler, ma abbiano applicazioni in tutti quei casi in cui occorre ricercare, identificare e integrare dei profili relativi a un certo utente, avendo a disposizione solo un nickname e un set di attributi iniziali. Risulta quindi un metodo potente per identificare più profili sul web come appartenenti alla stessa persona partendo da dati anche frammentari.

IDENTITA' SUL SOCIAL WEB: PROGETTAZIONE, SVILUPPO E VALUTAZIONE DI UN SISTEMA INNOVATIVO PER COLLEGARE I PROFILI DEGLI UTENTI DISTRIBUITI SUL WEB

OSBORNE, FRANCESCO NICOLO'
2009/2010

Abstract

In questa tesi, a carattere sperimentale, espongo il lavoro da me svolto per lo sviluppo del CS-IDS (Cross-System Identity Discovery System), un servizio di identity crawler finalizzato a identificare i vari profili pubblici di un utente sul web e utilizzarli per inferire nuovi dati. In questi ultimi anni sono nati molteplici servizi basati sulla personalizzazione per i quali i dati utenti sono fondamentali. Inoltre il proliferare dei social network ha portato sulla rete una grande massa di informazioni potenzialmente preziose in questo senso, ma difficilmente recuperabili. Il lavoro qui presentato propone varie tecniche innovative per identificare correttamente i profili di una persona sparsi su differenti tipi di sistemi online e integrarli tra loro. Un servizio di terze parti può interrogare il CS-IDS fornendogli un profilo utente incompleto perché venga arricchito con altri dati della stessa persona presenti sui social network e altri sistemi online. Nel caso in cui questo utente abbia uno o più profili su questi sistemi, e il CS-IDS riesca a identificarli, esso restituirà un profilo aggregato derivante dalla combinazione intelligente dei nuovi attributi scoperti, associati a un fattore di certezza. Va evidenziato come il tutto avvenga nel rispetto della privacy: a essere recuperati sono infatti solo i dati pubblici dell'utente. L'approccio del lavoro si basa sul matching tra attributi, su studi sulla struttura dei nickname e sul confronto incrociato dei dati su più sistemi. Particolare attenzione è stata dedicata alle inferenze sugli attributi, elaborando una tecnica per ridurre al minimo i falsi positivi, al fine di consentire all'applicazione che si appoggi al CS-IDS un grado di fiducia ottimale. Il CS-IDS è un progetto in divenire nato nel giugno del 2009. Fino a data odierna sono sono stati prodotti tre prototipi, analizzati e confrontati nei vari capitoli. Il sistema ha visto la mia attiva partecipazione a tutte le fasi di progettazione, sviluppo degli algoritmi, testing, elaborazione dei prototipi, procedure di valutazione, discussione e analisi dei risultati. Nell'ottobre del 2009 i risultati preliminari sono stati presentati alla IADIS international Conference WWW/Internet. Nella tesi si dimostra l'efficacia dell'approccio presentato con una valutazione approfondita sui dati ritrovati. In particolare si prova come l'ultima versione sia in grado di recuperare attributi di un utente, quali sesso, età, città di nascita o professione, con una precision superiore al 97% e una recall tra il 50% e il 60%. Infine si può rilevare come le tecniche qui esposte non siano limitate alla realizzazione di un servizio di identity crawler, ma abbiano applicazioni in tutti quei casi in cui occorre ricercare, identificare e integrare dei profili relativi a un certo utente, avendo a disposizione solo un nickname e un set di attributi iniziali. Risulta quindi un metodo potente per identificare più profili sul web come appartenenti alla stessa persona partendo da dati anche frammentari.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
208836_tesi_osborne.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.79 MB
Formato Adobe PDF
2.79 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/70342