In questa tesi vengono descritti diversi approcci per prevedere in anticipo se un individuo è potenzialmente soggetto ad ammalarsi di una qualche forma di disturbo psichico, come schizofrenia o autismo. L’obiettivo della tesi è analizzare le trascrizioni di interviste fatte ai soggetti (potenziali pazienti) in tre sedute diverse con metodi NLP, al fine di individuare una metrica che permetta di discriminare i soggetti sani da quelli affetti dai disturbi e che sia costante nel tempo per le diverse interviste fatte ad ogni paziente, quindi affidabile. Sono state studiate tre metriche diverse e quattro approcci per misurarle. La prima metrica testata è la densità semantica che esprime la densità di significati presenti all’interno di una frase. Il vector unpacking e la keyword extraction sono i primi due approcci esplorati, al fine di misurare la densità semantica. La seconda metrica analizzata è il compression ratio, che misura il grado di similarità fra diversi testi sulla base dei rispettivi rapporti di compressione. L’ultima metrica analizzata è la perplexity, uno strumento per la valutazione intrinseca dei modelli statistici del linguaggio. In questa tesi il modello viene usato per stimare le probabilità di emissione di una stringa. La perplexity consente quindi di stimare quanto la generazione di una stringa è probabile in base a un dato modello di linguaggio, quanto è in qualche modo verosimile e grammaticalmente corretta. Il modello utilizzato per questo approccio si chiama GePpeTto ed è un modello GPT2 addestrato per l’italiano.

Approcci dell'Elaborazione del Linguaggio Naturale per la Predizione della Psicosi

TOSCANO, TOMMASO
2019/2020

Abstract

In questa tesi vengono descritti diversi approcci per prevedere in anticipo se un individuo è potenzialmente soggetto ad ammalarsi di una qualche forma di disturbo psichico, come schizofrenia o autismo. L’obiettivo della tesi è analizzare le trascrizioni di interviste fatte ai soggetti (potenziali pazienti) in tre sedute diverse con metodi NLP, al fine di individuare una metrica che permetta di discriminare i soggetti sani da quelli affetti dai disturbi e che sia costante nel tempo per le diverse interviste fatte ad ogni paziente, quindi affidabile. Sono state studiate tre metriche diverse e quattro approcci per misurarle. La prima metrica testata è la densità semantica che esprime la densità di significati presenti all’interno di una frase. Il vector unpacking e la keyword extraction sono i primi due approcci esplorati, al fine di misurare la densità semantica. La seconda metrica analizzata è il compression ratio, che misura il grado di similarità fra diversi testi sulla base dei rispettivi rapporti di compressione. L’ultima metrica analizzata è la perplexity, uno strumento per la valutazione intrinseca dei modelli statistici del linguaggio. In questa tesi il modello viene usato per stimare le probabilità di emissione di una stringa. La perplexity consente quindi di stimare quanto la generazione di una stringa è probabile in base a un dato modello di linguaggio, quanto è in qualche modo verosimile e grammaticalmente corretta. Il modello utilizzato per questo approccio si chiama GePpeTto ed è un modello GPT2 addestrato per l’italiano.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
797795_tesimagistralepsicosi_26-05-2021.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.76 MB
Formato Adobe PDF
2.76 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/156402