La tipologia dei contenuti più diffusa sul web ha natura testuale. Oltre alle fonti più tradizionali, come le enciclopedie o i giornali, il podio occupano le reti sociali. Qui le persone sono libere di esprimersi, di condividere e interagire con altri utenti, ciò comporta una produzione enorme dei testi. Bisogna notare che i testi, oltre a essere casuali, contengono delle opinioni, delle intenzioni, dei pensieri, quindi un qualcosa di personale, strettamente appartenente all’utente, quello che lo caratterizza. Dove c’è qualcosa di personale, si trova inevitabilmente un qualcos' o qualcun altro che vorrebbe conoscere questi dati e trarre delle conclusioni utili a lui. Gli esempi più clamorosi sono la pubblicità che stranamente ci riguarda in qualche modo, oppure troviamo i contenuti più pertinenti ai nostri interessi sulle piattaforme che visitiamo quotidianamente. Quando ciò capita, potrebbe sembrare che l’app che stiamo usando ci conosce troppo bene, molto probabilmente ci conosce. Ci conosce dalle foto che condividiamo, dai post che pubblichiamo. E qui, di nuovo, ci torna utile a parlare dei testi. Sin dal XX secolo, l’uomo cerca di sviluppare degli strumenti che permettono di analizzare i testi in modo automatico. Tra i primi esempi troviamo i tentativi di tradurre le frasi dal russo all’inglese (The Georgetown experiment). Oggi la materia che si occupa di analizzare, o più in generale di elaborare, i testi si chiama NLP (Natural Language Processing o in italiano Elaborazione del Linguaggio Naturale). NLP è una materia in pieno sviluppo, tra i problemi che aiuta a svolgere troviamo: il riconoscimento della lingua, la traduzione dei testi, la scomposizione della frase in unità elementari, l’analisi sentimentale, la classificazione dei testi etc. La sfida che questo lavoro cercherà di affrontare è legata alla classificazione dei testi, in particolar modo si cercherà di sperimentare delle tecniche e gli strumenti di estrazione automatica del contenuto emotivo dei testi. La collezione dei testi (presa da una fonte pubblica), o corpus, che noi andremo ad ispezionare contiene i tweet. I dati che i tweet contengono sono casuali e non riguardano un argomento in particolare. Prima di andare ad effettuare l’analisi emotiva dei testi, occorre fare del lavoro preliminare. In primo luogo, bisogna “preparare” i testi: risolvendo le questioni legate al registro dei caratteri, i simboli di punteggiatura e l’eliminazione degli stop-words da un lato e valorizzando le peculiarità dei tweet, come gli emoji e gli hashtag, dall’altro. Una volta completata questa fase preliminare, dovremo in qualche modo rendere le frasi analizzabili tramite degli appositi lessici del tipo “parola_in_forma_base-emozione”, occorrerà quindi di portare le parole in forma base, ovvero lemmatizzare tramite degli strumenti disponibili in rete Internet. Qui il ruolo fondamentale occupa il lessico usato, dal quale dipenderà i risultati ottenuti. I risultati che successivamente costituiranno una base di conoscenza, potenzialmente interrogabile e ampliabile, dalla quale si potrà estrarre delle statistiche e rappresentarle in modo strutturato e chiaro al lettore. Successivamente, un possibile vettore dello sviluppo dell’esperimento potrebbe essere diretto verso gli approcci più complessi e moderni, ad esempio quelli basati sull’apprendimento automatico. Per questo scopo potrebbe essere utilizzato il risultato della fase precedente.
Estrazione Automatica e Rappresentazione Strutturata del Contenuto Emotivo in Twitter
TURCAN, BORIS
2022/2023
Abstract
La tipologia dei contenuti più diffusa sul web ha natura testuale. Oltre alle fonti più tradizionali, come le enciclopedie o i giornali, il podio occupano le reti sociali. Qui le persone sono libere di esprimersi, di condividere e interagire con altri utenti, ciò comporta una produzione enorme dei testi. Bisogna notare che i testi, oltre a essere casuali, contengono delle opinioni, delle intenzioni, dei pensieri, quindi un qualcosa di personale, strettamente appartenente all’utente, quello che lo caratterizza. Dove c’è qualcosa di personale, si trova inevitabilmente un qualcos' o qualcun altro che vorrebbe conoscere questi dati e trarre delle conclusioni utili a lui. Gli esempi più clamorosi sono la pubblicità che stranamente ci riguarda in qualche modo, oppure troviamo i contenuti più pertinenti ai nostri interessi sulle piattaforme che visitiamo quotidianamente. Quando ciò capita, potrebbe sembrare che l’app che stiamo usando ci conosce troppo bene, molto probabilmente ci conosce. Ci conosce dalle foto che condividiamo, dai post che pubblichiamo. E qui, di nuovo, ci torna utile a parlare dei testi. Sin dal XX secolo, l’uomo cerca di sviluppare degli strumenti che permettono di analizzare i testi in modo automatico. Tra i primi esempi troviamo i tentativi di tradurre le frasi dal russo all’inglese (The Georgetown experiment). Oggi la materia che si occupa di analizzare, o più in generale di elaborare, i testi si chiama NLP (Natural Language Processing o in italiano Elaborazione del Linguaggio Naturale). NLP è una materia in pieno sviluppo, tra i problemi che aiuta a svolgere troviamo: il riconoscimento della lingua, la traduzione dei testi, la scomposizione della frase in unità elementari, l’analisi sentimentale, la classificazione dei testi etc. La sfida che questo lavoro cercherà di affrontare è legata alla classificazione dei testi, in particolar modo si cercherà di sperimentare delle tecniche e gli strumenti di estrazione automatica del contenuto emotivo dei testi. La collezione dei testi (presa da una fonte pubblica), o corpus, che noi andremo ad ispezionare contiene i tweet. I dati che i tweet contengono sono casuali e non riguardano un argomento in particolare. Prima di andare ad effettuare l’analisi emotiva dei testi, occorre fare del lavoro preliminare. In primo luogo, bisogna “preparare” i testi: risolvendo le questioni legate al registro dei caratteri, i simboli di punteggiatura e l’eliminazione degli stop-words da un lato e valorizzando le peculiarità dei tweet, come gli emoji e gli hashtag, dall’altro. Una volta completata questa fase preliminare, dovremo in qualche modo rendere le frasi analizzabili tramite degli appositi lessici del tipo “parola_in_forma_base-emozione”, occorrerà quindi di portare le parole in forma base, ovvero lemmatizzare tramite degli strumenti disponibili in rete Internet. Qui il ruolo fondamentale occupa il lessico usato, dal quale dipenderà i risultati ottenuti. I risultati che successivamente costituiranno una base di conoscenza, potenzialmente interrogabile e ampliabile, dalla quale si potrà estrarre delle statistiche e rappresentarle in modo strutturato e chiaro al lettore. Successivamente, un possibile vettore dello sviluppo dell’esperimento potrebbe essere diretto verso gli approcci più complessi e moderni, ad esempio quelli basati sull’apprendimento automatico. Per questo scopo potrebbe essere utilizzato il risultato della fase precedente.File | Dimensione | Formato | |
---|---|---|---|
944165_944165_boris_turcan_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
5.43 MB
Formato
Adobe PDF
|
5.43 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/106954