Natural Language Processing (NLP) means the processing of natural language through the use of a computer. By natural language we mean a language spoken by man (Italian, English, Chinese, or others) which presents ambiguity and inprecisations in its grammatical structure; on the contrary, a formal language (for example a computer programming language) presents a grammatical structure without ambiguity. For this reason and due to the difficult identification of the context of sentences by a computer, the development of NLP applications is particularly difficult. Currently the various NLP approaches are based on Deep Learning, a type of artificial intelligence that examines large amounts of data to allow the program to learn and therefore become more precise in its processing. A case of using NLP is the Sentiment Analisys (analysis of feelings). As you can guess from the name, all those NLP applications that try to extrapolate the sentiment from a text, usually returning positive, neutral or negative feedback, fall into this category. The purpose of this thesis is to enrich a dataset composed of more than 57,000 musical texts by adding the date of publication of these taken from Wikipedia and applying the sentiment analisys algorithm in order to memorize the result to perform statistical calculations. The first phase of the process will consist in using the Apache Lucene Core library to initialize a structure that allows to perform search operations on the data of musical songs efficiently (both from the point of view of the temporal complexity and of the spatial one) indexing them through the creation of appropriate documents. The next step will be to extract the date of publication of the passage from the corresponding Wikipedia pages by parsing the appropriate Dumps File in .XML format and at the same time the Sentiment Analisys algorithm will be applied (available in the Stanford Core NLP library) and will be associated with each text its corresponding result. The last step is to use the data extracted from sentiment analysis to calculate the artists' mean and variance and determine which of these are those that express a more fluctuating sentiment in their songs.
Con Natural Language Processing (NLP) si intende l'elaborazione del linguaggio naturale tramite l'uso di un calcolatore. Per linguaggio naturale si intende una lingua parlata dall'uomo (italiano, inglese, cinese, o altre) la quale presenta ambiguità e inprecisazioni nella sua struttura grammaticale; al contrario, un linguaggio formale (per esempio un linguaggio di programmazione di un computer) presenta una struttura grammaticale priva di ambiguità. Per questo motivo e a causa della difficile identificazione del contesto delle frasi da parte di un calcolatore, lo sviluppo di applicazioni NLP è particolarmente ostico. Attualmente i vari approcci di NLP si basano sul Deep Learning (apprendimento profondo), un tipo di intelligenza artificiale che esamina grandi moli di dati per permettere al programma di apprendere e quindi diventare più preciso nelle sue elaborazioni. Un caso di utilizzo di NLP è la Sentiment Analisys (analisi dei sentimenti). Come si può intuire dal nome, rientrano in questa categoria tutte quelle applicazioni di NLP che cercano di estrapolare il sentimento da un testo, solitamente restituendo un feedback positivo, neutro o negativo. Il lavoro di questa tesi ha come scopo quello di arricchire un dataset composto da più di 57000 testi musicali aggiungendo la data di pubblicazione di questi estratta da Wikipedia ed applicare l'algoritmo di sentiment analisys al fine di memorizzarne il risultato per effettuare calcoli statistici. La prima fase del processo consisterà nell'utilizzare la libreria Apache Lucene Core per inizializzare una struttura che permetta di effettuare operazioni di ricerca sui dati delle canzoni musicali efficientemente (sia dal punto di vista della complessità temporale che di quella spaziale) indicizzandondole tramite la creazione di appositi documenti. Il passo successivo sarà quello di estrarre la data di pubblicazione del brano dalle corrispondenti pagine di Wikipedia parsificando l'apposito Dumps File in formato .XML e contemporaneamente si applicherà l'algoritmo di Sentiment Analisys (disponibile nella libreria Stanford Core NLP) e si assocerà ad ogni testo il suo corrispondente risultato. L'ultimo passaggio è quello di utilizzare i dati estratti dalla sentiment analysis per calcolare media e varianza degli artisti e determinare quali di questi sono quelli che esprimono un sentimento più altalenante nelle loro canzoni.
Arricchimento dataset musicale e Sentiment Analysis dei testi
MACCHIA, DAVIDE
2018/2019
Abstract
Con Natural Language Processing (NLP) si intende l'elaborazione del linguaggio naturale tramite l'uso di un calcolatore. Per linguaggio naturale si intende una lingua parlata dall'uomo (italiano, inglese, cinese, o altre) la quale presenta ambiguità e inprecisazioni nella sua struttura grammaticale; al contrario, un linguaggio formale (per esempio un linguaggio di programmazione di un computer) presenta una struttura grammaticale priva di ambiguità. Per questo motivo e a causa della difficile identificazione del contesto delle frasi da parte di un calcolatore, lo sviluppo di applicazioni NLP è particolarmente ostico. Attualmente i vari approcci di NLP si basano sul Deep Learning (apprendimento profondo), un tipo di intelligenza artificiale che esamina grandi moli di dati per permettere al programma di apprendere e quindi diventare più preciso nelle sue elaborazioni. Un caso di utilizzo di NLP è la Sentiment Analisys (analisi dei sentimenti). Come si può intuire dal nome, rientrano in questa categoria tutte quelle applicazioni di NLP che cercano di estrapolare il sentimento da un testo, solitamente restituendo un feedback positivo, neutro o negativo. Il lavoro di questa tesi ha come scopo quello di arricchire un dataset composto da più di 57000 testi musicali aggiungendo la data di pubblicazione di questi estratta da Wikipedia ed applicare l'algoritmo di sentiment analisys al fine di memorizzarne il risultato per effettuare calcoli statistici. La prima fase del processo consisterà nell'utilizzare la libreria Apache Lucene Core per inizializzare una struttura che permetta di effettuare operazioni di ricerca sui dati delle canzoni musicali efficientemente (sia dal punto di vista della complessità temporale che di quella spaziale) indicizzandondole tramite la creazione di appositi documenti. Il passo successivo sarà quello di estrarre la data di pubblicazione del brano dalle corrispondenti pagine di Wikipedia parsificando l'apposito Dumps File in formato .XML e contemporaneamente si applicherà l'algoritmo di Sentiment Analisys (disponibile nella libreria Stanford Core NLP) e si assocerà ad ogni testo il suo corrispondente risultato. L'ultimo passaggio è quello di utilizzare i dati estratti dalla sentiment analysis per calcolare media e varianza degli artisti e determinare quali di questi sono quelli che esprimono un sentimento più altalenante nelle loro canzoni.File | Dimensione | Formato | |
---|---|---|---|
804772_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
637.9 kB
Formato
Adobe PDF
|
637.9 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/151422