Il lavoro di tesi ha presentato aspetti e problematiche relative ai settori di studio della sentiment analysis. Partendo con un' introduzione teorica, sulle metodologie e le tecniche utilizzate si è giunti alla progettazione del sistema Sentiment Analysis in Twitter che utilizza la classificazione testuale (della sola lingua inglese) per determinare l'orientamento (il sentiment) dei messaggi postati sul social network. Per lo sviluppo dell'applicativo si è utilizzato il tool R Project (e non Python) in quanto fornisce un ambiente open source espandibile tramite l'integrazione di un gran numero di packages dalle più disparate funzionalità(Twitter API, natural language programming, Google Maps API). Il sistema di classificazione, preso in input un tweet, restituisce in output la classe a cui il tweet appartiene, scelta tra: classe positive, classe negative, not classified. Il progetto ha previsto una fase di pre-classificazione, denominata ¿filtraggio¿, in cui il testo dei tweet viene ¿pulito¿ da tutto ciò che non è utile ai fini della classificazione; in particolare in questa fase viene eseguita la detection e il tagging delle emoticons, che rappresentano un importante indicatore del sentiment espresso. Il sistema è stato poi addestrato con una tecnica di cross validation incrementale, cioè il training set, inizialmente molto piccolo, viene incrementato gradualmente e ad ogni passo vengono valutati i risultati della classificazione su un test set. Questa procedura continua fino a che non vengono raggiunte le prestazioni ottimali del sistema o fino a quando non viene esaurito il training set che si ha a disposizione.

Implementazione dell'algoritmo Naive Bayes per la classificazione testuale di Social Network Data finalizzata alla Sentiment Analysis: uno studio da Twitter in R.

MILIZIA, GIANCARLO
2017/2018

Abstract

Il lavoro di tesi ha presentato aspetti e problematiche relative ai settori di studio della sentiment analysis. Partendo con un' introduzione teorica, sulle metodologie e le tecniche utilizzate si è giunti alla progettazione del sistema Sentiment Analysis in Twitter che utilizza la classificazione testuale (della sola lingua inglese) per determinare l'orientamento (il sentiment) dei messaggi postati sul social network. Per lo sviluppo dell'applicativo si è utilizzato il tool R Project (e non Python) in quanto fornisce un ambiente open source espandibile tramite l'integrazione di un gran numero di packages dalle più disparate funzionalità(Twitter API, natural language programming, Google Maps API). Il sistema di classificazione, preso in input un tweet, restituisce in output la classe a cui il tweet appartiene, scelta tra: classe positive, classe negative, not classified. Il progetto ha previsto una fase di pre-classificazione, denominata ¿filtraggio¿, in cui il testo dei tweet viene ¿pulito¿ da tutto ciò che non è utile ai fini della classificazione; in particolare in questa fase viene eseguita la detection e il tagging delle emoticons, che rappresentano un importante indicatore del sentiment espresso. Il sistema è stato poi addestrato con una tecnica di cross validation incrementale, cioè il training set, inizialmente molto piccolo, viene incrementato gradualmente e ad ogni passo vengono valutati i risultati della classificazione su un test set. Questa procedura continua fino a che non vengono raggiunte le prestazioni ottimali del sistema o fino a quando non viene esaurito il training set che si ha a disposizione.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
795383_thesis.upload.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 741.57 kB
Formato Adobe PDF
741.57 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/94590