Con l'esplosione dei social media e delle recensioni online, la disponibilità crescente di documenti digitali sta rendendo il Text Mining e la Sentiment Analysis ambiti di ricerca di grande interesse. La possibilità di trattare in maniera automatizzata stringhe di testo rappresenta una grande opportunità sia da un punto di vista teorico che da un punto di vista pratico. Nella vita di tutti i giorni, per esempio, durante il processo d'acquisto di un prodotto o di un servizio, l'opinione degli altri rappresenta una fonte di informazione importante che, tuttavia, spesso si manifesta in maniera non strutturata sotto forma di recensioni o di commenti sparsi sul Web. La classificazione automatica di tali fonti, in base all'opinione che esprimono, rappresenta dunque una sfida di una certa rilevanza. A tal fine, in questo elaborato, vengono usate tecniche statistiche, di Text Mining e di Machine Learning che permettono di verificare se e in che misura è possibile classificare il sentimento espresso all'interno di recensioni su una scala numerica con più di due valori. L'approccio seguito consiste nel rappresentare vettorialmente l'intero corpus attraverso una rappresentazione "Bag of Word" e di classificare ogni recensione tramite algoritmi di apprendimento supervisionato, fra cui il Naive Bayes Classifier, il classificatore di massima entropia ed il Support Vector Classifier. Inoltre, vengono implementati due modelli proposti in letteratura ed uno proposto da noi che sfruttano diversi tipi di informazione, quali la similitudine fra recensioni o i titoli ad esse associati. Le prestazioni dei vari modelli vengono valutate e confrontate in base ad indici quali l'accuratezza, la precisione e l'F1-score. I dati utilizzati sono un campione casuale bilanciato estratto da un data base di Amazon.com, in cui sono collezionate un insieme di recensioni riguardanti la categoria dei videogiochi, a cui è associato un rating che va da una a cinque "stelle". I risultati ottenuti indicano che il Support Vector Classifier nella versione "uno-contro-uno" è il modello più accurato (45,47%) e che l'utilizzo congiunto di recensioni e titoli associati permette di aumentarne l'accuratezza del 7% (48,63%).

Classificazione e "Sentiment Analysis": un'analisi empirica sulle recensioni di Amazon

VALLE, FRANCESCO
2017/2018

Abstract

Con l'esplosione dei social media e delle recensioni online, la disponibilità crescente di documenti digitali sta rendendo il Text Mining e la Sentiment Analysis ambiti di ricerca di grande interesse. La possibilità di trattare in maniera automatizzata stringhe di testo rappresenta una grande opportunità sia da un punto di vista teorico che da un punto di vista pratico. Nella vita di tutti i giorni, per esempio, durante il processo d'acquisto di un prodotto o di un servizio, l'opinione degli altri rappresenta una fonte di informazione importante che, tuttavia, spesso si manifesta in maniera non strutturata sotto forma di recensioni o di commenti sparsi sul Web. La classificazione automatica di tali fonti, in base all'opinione che esprimono, rappresenta dunque una sfida di una certa rilevanza. A tal fine, in questo elaborato, vengono usate tecniche statistiche, di Text Mining e di Machine Learning che permettono di verificare se e in che misura è possibile classificare il sentimento espresso all'interno di recensioni su una scala numerica con più di due valori. L'approccio seguito consiste nel rappresentare vettorialmente l'intero corpus attraverso una rappresentazione "Bag of Word" e di classificare ogni recensione tramite algoritmi di apprendimento supervisionato, fra cui il Naive Bayes Classifier, il classificatore di massima entropia ed il Support Vector Classifier. Inoltre, vengono implementati due modelli proposti in letteratura ed uno proposto da noi che sfruttano diversi tipi di informazione, quali la similitudine fra recensioni o i titoli ad esse associati. Le prestazioni dei vari modelli vengono valutate e confrontate in base ad indici quali l'accuratezza, la precisione e l'F1-score. I dati utilizzati sono un campione casuale bilanciato estratto da un data base di Amazon.com, in cui sono collezionate un insieme di recensioni riguardanti la categoria dei videogiochi, a cui è associato un rating che va da una a cinque "stelle". I risultati ottenuti indicano che il Support Vector Classifier nella versione "uno-contro-uno" è il modello più accurato (45,47%) e che l'utilizzo congiunto di recensioni e titoli associati permette di aumentarne l'accuratezza del 7% (48,63%).
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
833683_tesi_fvalle.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 614.01 kB
Formato Adobe PDF
614.01 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/49151