Implementazione dell'algoritmo Naive Bayes per la classificazione testuale
di Social Network Data finalizzata alla Sentiment Analysis:
uno studio da Twitter in R.

Il lavoro di tesi ha presentato aspetti e problematiche relative ai settori di studio della sentiment analysis. Partendo con un' introduzione teorica, sulle metodologie e le tecniche utilizzate si è giunti alla progettazione del sistema Sentiment Analysis in Twitter che utilizza la classificazione testuale (della sola lingua inglese) per determinare l'orientamento (il sentiment) dei messaggi postati sul social network. Per lo sviluppo dell'applicativo si è utilizzato il tool R Project (e non Python) in quanto fornisce un ambiente open source espandibile tramite l'integrazione di un gran numero di packages dalle più disparate funzionalità(Twitter API, natural language programming, Google Maps API). Il sistema di classificazione, preso in input un tweet, restituisce in output la classe a cui il tweet appartiene, scelta tra: classe positive, classe negative, not classified. Il progetto ha previsto una fase di pre-classificazione, denominata ¿filtraggio¿, in cui il testo dei tweet viene ¿pulito¿ da tutto ciò che non è utile ai fini della classificazione; in particolare in questa fase viene eseguita la detection e il tagging delle emoticons, che rappresentano un importante indicatore del sentiment espresso. Il sistema è stato poi addestrato con una tecnica di cross validation incrementale, cioè il training set, inizialmente molto piccolo, viene incrementato gradualmente e ad ogni passo vengono valutati i risultati della classificazione su un test set. Questa procedura continua fino a che non vengono raggiunte le prestazioni ottimali del sistema o fino a quando non viene esaurito il training set che si ha a disposizione.

Implementazione dell'algoritmo Naive Bayes per la classificazione testuale di Social Network Data finalizzata alla Sentiment Analysis: uno studio da Twitter in R.

MILIZIA, GIANCARLO

2017/2018

Abstract

Il lavoro di tesi ha presentato aspetti e problematiche relative ai settori di studio della sentiment analysis. Partendo con un' introduzione teorica, sulle metodologie e le tecniche utilizzate si è giunti alla progettazione del sistema Sentiment Analysis in Twitter che utilizza la classificazione testuale (della sola lingua inglese) per determinare l'orientamento (il sentiment) dei messaggi postati sul social network. Per lo sviluppo dell'applicativo si è utilizzato il tool R Project (e non Python) in quanto fornisce un ambiente open source espandibile tramite l'integrazione di un gran numero di packages dalle più disparate funzionalità(Twitter API, natural language programming, Google Maps API). Il sistema di classificazione, preso in input un tweet, restituisce in output la classe a cui il tweet appartiene, scelta tra: classe positive, classe negative, not classified. Il progetto ha previsto una fase di pre-classificazione, denominata ¿filtraggio¿, in cui il testo dei tweet viene ¿pulito¿ da tutto ciò che non è utile ai fini della classificazione; in particolare in questa fase viene eseguita la detection e il tagging delle emoticons, che rappresentano un importante indicatore del sentiment espresso. Il sistema è stato poi addestrato con una tecnica di cross validation incrementale, cioè il training set, inizialmente molto piccolo, viene incrementato gradualmente e ad ogni passo vengono valutati i risultati della classificazione su un test set. Questa procedura continua fino a che non vengono raggiunte le prestazioni ottimali del sistema o fino a quando non viene esaurito il training set che si ha a disposizione.

Scheda breve

	Facoltà/Dipartimento
	
				ECONOMIA E STATISTICA "COGNETTI DE MARTIIS"
			
	Corso di studio
	
				SCIENZE STATISTICHE, ECONOMICHE E MANAGERIALI
			
	Lingua
	
				ITA
			
	Relatrice / Relatore
	
				MICALIZIO, Roberto
PRONZATO, Chiara Daniela
			
	Modalità consultazione tesi
	
				IMPORT DA TESIONLINE
			
	Appare nelle tipologie:
	
				Corso di Laurea Magistrale

File in questo prodotto:

File	Dimensione	Formato
795383_thesis.upload.pdf non disponibili Tipologia: Altro materiale allegato Dimensione 741.57 kB Formato Adobe PDF	741.57 kB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/94590