Social media allow people to express their opinions about different topics. The use of sentiment analysis gives the opportunity to evaluate the polarity of the opinions expressed on those networks. However this task needs to be trained by humans. Humans have to provide sentiment analysis task the knowledge necessary to annotate a text. In order to provide this knowledge they build corpora. In this thesis the interest was focused on Catalan independence debate. For this reason, the building, the annotation and the analysis of a Spanish corpus of tweets tagged by the hashtag #independencia will be described.

Con l'avvento dei social media è diventato sempre più semplice esprimere la propria opinione in merito a qualsiasi argomento. La sentiment analysis, insieme di tecniche informatiche, si occupa di stabilire se le opinioni espresse all'interno di queste piattaforme sono a favore o contro l'argomento di interesse; per farlo però si avvale dell'intervento dell'uomo. La costruzione di corpora specifici per questo scopo serve a creare una base di conoscenza per i sistemi di sentiment analysis. In questa tesi si è pertanto descritta la costruzione, l'annotazione e l'analisi di un corpus di tweet in lingua spagnola estrapolati in base all'hashtag #independencia e si è analizzato il dibattito generatosi in Spagna a riguardo della proposta di indipendenza catalana. Il lavoro si è sviluppato in fasi differenti. Si è infatti proceduto all'annotazione della polarità dei tweet e dell'eventuale ironia presente. Successivamente si è quindi proceduto all'individuazione del possibile disagreement presente tra due annotatori diversi. In fase finale si è perciò indagato il motivo del disaccordo. Le conclusioni suscitate da questo lavoro rendono il progetto sviluppato in questa tesi e ancor di più lo studio di cui la stessa fa parte fondamentali per la ricerca scientifica. L'intervento umano è infatti necessario e imprescindibile per migliorare il funzionamento di una macchina e l'annotazione manuale dei corpus come in generale l'approccio corpus-based nell'ambito dei sistemi di NLP non possono che essere ottime soluzioni al training delle macchine.

INDEPENDENCE TWEET: l'indipendenza catalana cinguettata su Twitter. Annotazione e analisi di un corpus di tweet in lingua spagnola.

PETTA, VALERIA
2014/2015

Abstract

Con l'avvento dei social media è diventato sempre più semplice esprimere la propria opinione in merito a qualsiasi argomento. La sentiment analysis, insieme di tecniche informatiche, si occupa di stabilire se le opinioni espresse all'interno di queste piattaforme sono a favore o contro l'argomento di interesse; per farlo però si avvale dell'intervento dell'uomo. La costruzione di corpora specifici per questo scopo serve a creare una base di conoscenza per i sistemi di sentiment analysis. In questa tesi si è pertanto descritta la costruzione, l'annotazione e l'analisi di un corpus di tweet in lingua spagnola estrapolati in base all'hashtag #independencia e si è analizzato il dibattito generatosi in Spagna a riguardo della proposta di indipendenza catalana. Il lavoro si è sviluppato in fasi differenti. Si è infatti proceduto all'annotazione della polarità dei tweet e dell'eventuale ironia presente. Successivamente si è quindi proceduto all'individuazione del possibile disagreement presente tra due annotatori diversi. In fase finale si è perciò indagato il motivo del disaccordo. Le conclusioni suscitate da questo lavoro rendono il progetto sviluppato in questa tesi e ancor di più lo studio di cui la stessa fa parte fondamentali per la ricerca scientifica. L'intervento umano è infatti necessario e imprescindibile per migliorare il funzionamento di una macchina e l'annotazione manuale dei corpus come in generale l'approccio corpus-based nell'ambito dei sistemi di NLP non possono che essere ottime soluzioni al training delle macchine.
ITA
Social media allow people to express their opinions about different topics. The use of sentiment analysis gives the opportunity to evaluate the polarity of the opinions expressed on those networks. However this task needs to be trained by humans. Humans have to provide sentiment analysis task the knowledge necessary to annotate a text. In order to provide this knowledge they build corpora. In this thesis the interest was focused on Catalan independence debate. For this reason, the building, the annotation and the analysis of a Spanish corpus of tweets tagged by the hashtag #independencia will be described.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
724796_tesivaleriapetta-finita.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.61 MB
Formato Adobe PDF
2.61 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/116933