Il lavoro di tesi ha presentato aspetti e problematiche relative ai settori di studio della sentiment analysis. Partendo con un' introduzione teorica, sulle metodologie e le tecniche utilizzate si è giunti alla progettazione del sistema Sentiment Analysis in Twitter che utilizza la classificazione testuale (della sola lingua inglese) per determinare l'orientamento (il sentiment) dei messaggi postati sul social network. Per lo sviluppo dell'applicativo si è utilizzato il tool R Project (e non Python) in quanto fornisce un ambiente open source espandibile tramite l'integrazione di un gran numero di packages dalle più disparate funzionalità(Twitter API, natural language programming, Google Maps API). Il sistema di classificazione, preso in input un tweet, restituisce in output la classe a cui il tweet appartiene, scelta tra: classe positive, classe negative, not classified. Il progetto ha previsto una fase di pre-classificazione, denominata ¿filtraggio¿, in cui il testo dei tweet viene ¿pulito¿ da tutto ciò che non è utile ai fini della classificazione; in particolare in questa fase viene eseguita la detection e il tagging delle emoticons, che rappresentano un importante indicatore del sentiment espresso. Il sistema è stato poi addestrato con una tecnica di cross validation incrementale, cioè il training set, inizialmente molto piccolo, viene incrementato gradualmente e ad ogni passo vengono valutati i risultati della classificazione su un test set. Questa procedura continua fino a che non vengono raggiunte le prestazioni ottimali del sistema o fino a quando non viene esaurito il training set che si ha a disposizione.
Implementazione dell'algoritmo Naive Bayes per la classificazione testuale di Social Network Data finalizzata alla Sentiment Analysis: uno studio da Twitter in R.
MILIZIA, GIANCARLO
2017/2018
Abstract
Il lavoro di tesi ha presentato aspetti e problematiche relative ai settori di studio della sentiment analysis. Partendo con un' introduzione teorica, sulle metodologie e le tecniche utilizzate si è giunti alla progettazione del sistema Sentiment Analysis in Twitter che utilizza la classificazione testuale (della sola lingua inglese) per determinare l'orientamento (il sentiment) dei messaggi postati sul social network. Per lo sviluppo dell'applicativo si è utilizzato il tool R Project (e non Python) in quanto fornisce un ambiente open source espandibile tramite l'integrazione di un gran numero di packages dalle più disparate funzionalità(Twitter API, natural language programming, Google Maps API). Il sistema di classificazione, preso in input un tweet, restituisce in output la classe a cui il tweet appartiene, scelta tra: classe positive, classe negative, not classified. Il progetto ha previsto una fase di pre-classificazione, denominata ¿filtraggio¿, in cui il testo dei tweet viene ¿pulito¿ da tutto ciò che non è utile ai fini della classificazione; in particolare in questa fase viene eseguita la detection e il tagging delle emoticons, che rappresentano un importante indicatore del sentiment espresso. Il sistema è stato poi addestrato con una tecnica di cross validation incrementale, cioè il training set, inizialmente molto piccolo, viene incrementato gradualmente e ad ogni passo vengono valutati i risultati della classificazione su un test set. Questa procedura continua fino a che non vengono raggiunte le prestazioni ottimali del sistema o fino a quando non viene esaurito il training set che si ha a disposizione.File | Dimensione | Formato | |
---|---|---|---|
795383_thesis.upload.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
741.57 kB
Formato
Adobe PDF
|
741.57 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/94590