In this thesis we investigate the anatomy and use of Sentiment Analysis, one of the main application areas of Computational Linguistics. An overview is presented of the methodologies of this relatively recently developed discipline, in combination with some Natural Language Processing techniques, primarily highlighting the various functions that allow a computer to analyze and, to some extent, understand and reproduce human language. The processing techniques briefly described cover both the levels of morpho-syntactic analysis (from tokenization to part-of-speech tagging, to parsing) and the levels of lexical and semantic analysis of texts, including a mention of the most popular supervised machine learning techniques in the field. The basic steps for building annotated corpora are then described, from data collection, to annotation, analysis and exploitation. A specific example of annotation task, the task of automatic recognition of irony in a text was considered in the context of sentiment analysis, carried out as part of the SentiTUT project. We then explore the domain of social media, by highlighting how sentiment analysis on this popular textual genre presents greater difficulties than applying analysis to standard textual content, where it is less crucial to reconstruct the conversational context of the discourse. In particular we focus on the Twitter social platform, given its peculiar characteristics. It turns out that in addition to classifying the overall polarity of a text, sentiment analysis can also be extended to aspect-based analysis and stance detection tasks. There are many relevant topics in the debates on microblogs such as Twitter. These topics vary from business, to general social well-being. Among these, there is monitoring political sentiment, which is particularly widespread and impactful because of the possible influences of online debates on the real dimension of political elections.
In questa tesi si indaga l’anatomia e l’utilizzo dell’Analisi dei Sentimenti, uno dei principali ambiti applicativi della Linguistica Computazionale. Si presenta una rassegna delle metodologie di questa disciplina di studio di sviluppo relativamente recente in combinazione con alcune tecniche di Elaborazione del Linguaggio Naturale, mettendo innanzitutto in risalto le varie funzioni che permettono a un elaboratore elettronico di analizzare e, in qualche misura, comprendere e riprodurre il linguaggio umano. Le tecniche di elaborazione brevemente descritte riguardano sia i livelli di analisi morfo-sintattica (dalla tokenizzazione al part-of-speech tagging, al parsing) sia i livelli di analisi lessicale e semantica del testo, fino a giungere ad accennare alle tecniche di apprendimento automatico supervisionato più diffuse nel settore. Vengono poi descritti i passi fondamentali per la costruzione di corpora annotati, dalla raccolta di dati, alla loro analisi e infine ai loro possibili utilizzi. Come esempio specifico di compito di annotazione è stato preso in considerazione il task di riconoscimento automatico di ironia in un testo, nell’ambito dell’analisi del sentiment, facendo riferimento a studi eseguiti nell’ambito del progetto SentiTUT. Si esplora poi il dominio dei social media mettendo in risalto come l’analisi dei sentimenti su questo genere testuale molto popolare presenti maggiori difficoltà rispetto a contesti di applicazione delle analisi a contenuti testuali standard, dove è meno cruciale ricostruire il contesto conversazionale del discorso. In particolare si analizza il mondo della piattaforma social Twitter, date le sue caratteristiche peculiari, evidenziando come oltre alla classica annotazione della polarità del sentiment, l’analisi dei sentimenti si possa estendere anche all’analisi degli aspetti d’interesse e della posizione o orientamento (stance) degli utenti nei confronti di un target. Ci sono tanti argomenti di rilievo nei dibattiti nati sui microblog come Twitter, dal business, a temi di interesse collettivo. Fra questi risulta di particolare interesse il monitoraggio del dibattito politico, particolarmente diffuso e di impatto a causa delle possibili influenze sul piano reale delle elezioni politiche.
Analisi dei Sentimenti e Social Media
BECCUTI, GUGLIELMO
2020/2021
Abstract
In questa tesi si indaga l’anatomia e l’utilizzo dell’Analisi dei Sentimenti, uno dei principali ambiti applicativi della Linguistica Computazionale. Si presenta una rassegna delle metodologie di questa disciplina di studio di sviluppo relativamente recente in combinazione con alcune tecniche di Elaborazione del Linguaggio Naturale, mettendo innanzitutto in risalto le varie funzioni che permettono a un elaboratore elettronico di analizzare e, in qualche misura, comprendere e riprodurre il linguaggio umano. Le tecniche di elaborazione brevemente descritte riguardano sia i livelli di analisi morfo-sintattica (dalla tokenizzazione al part-of-speech tagging, al parsing) sia i livelli di analisi lessicale e semantica del testo, fino a giungere ad accennare alle tecniche di apprendimento automatico supervisionato più diffuse nel settore. Vengono poi descritti i passi fondamentali per la costruzione di corpora annotati, dalla raccolta di dati, alla loro analisi e infine ai loro possibili utilizzi. Come esempio specifico di compito di annotazione è stato preso in considerazione il task di riconoscimento automatico di ironia in un testo, nell’ambito dell’analisi del sentiment, facendo riferimento a studi eseguiti nell’ambito del progetto SentiTUT. Si esplora poi il dominio dei social media mettendo in risalto come l’analisi dei sentimenti su questo genere testuale molto popolare presenti maggiori difficoltà rispetto a contesti di applicazione delle analisi a contenuti testuali standard, dove è meno cruciale ricostruire il contesto conversazionale del discorso. In particolare si analizza il mondo della piattaforma social Twitter, date le sue caratteristiche peculiari, evidenziando come oltre alla classica annotazione della polarità del sentiment, l’analisi dei sentimenti si possa estendere anche all’analisi degli aspetti d’interesse e della posizione o orientamento (stance) degli utenti nei confronti di un target. Ci sono tanti argomenti di rilievo nei dibattiti nati sui microblog come Twitter, dal business, a temi di interesse collettivo. Fra questi risulta di particolare interesse il monitoraggio del dibattito politico, particolarmente diffuso e di impatto a causa delle possibili influenze sul piano reale delle elezioni politiche.File | Dimensione | Formato | |
---|---|---|---|
837033_tesiguglielmobeccuti.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
526.09 kB
Formato
Adobe PDF
|
526.09 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/137510