In this work we explore how language models can be employed to analyze language and discriminate between subjects affected by mental disorders (across a broad spectrum, falling within the realm of dementia) and healthy subjects, using the perplexity metric. Perplexity has been conceived as an intrinsic measure for evaluating language models (how suitable a given language model is for predicting a text sequence or, equivalently, how well a sequence of words fits into a specific language model). We conducted an experimentation on a dataset of interviews with both healthy subjects and people affected by dementia, employing different language models such as N-grams and GepPeTto, a language model for Italian and based on GPT-2. Our best-performing models achieved very high accuracy and competitive F-scores compared to the state-of-the-art, both in categorizing subjects with dementia and those in the control group.

In questo lavoro esploriamo come i language models possano essere impiegati per analizzare il linguaggio e discriminare tra soggetti affetti da disturbi mentali (ad ampio spettro, rientranti nell'alveo della demenza) e soggetti sani attraverso la metrica della perplexity. La perplexity è stata concepita come una misura intrinseca per la valutazione dei modelli linguistici (quanto un dato modello linguistico sia adatto a predire una sequenza di testo o, equivalentemente, quanto una sequenza di parole si adatti a un modello linguistico specifico). Abbiamo condotto una sperimentazione su un set di colloqui con soggetti sani o affetti da disturbi nello spettro delle demenza, e impiegato modelli linguistici diversi come gli N-grammi e GepPeTto, un modello linguistico basato su GPT-2. I migliori modelli hanno raggiunto un'accuratezza e un F-score molto alti e competitivi con lo stato dell'arte sia nella categorizzazione dei soggetti dementi, sia dai soggetti appartenenti al gruppo di controllo.

Diagnosi precoce della demenza: contributi dall’adozione dei Language Models e della Perplexity

GRANDI, GIACOMO
2022/2023

Abstract

In questo lavoro esploriamo come i language models possano essere impiegati per analizzare il linguaggio e discriminare tra soggetti affetti da disturbi mentali (ad ampio spettro, rientranti nell'alveo della demenza) e soggetti sani attraverso la metrica della perplexity. La perplexity è stata concepita come una misura intrinseca per la valutazione dei modelli linguistici (quanto un dato modello linguistico sia adatto a predire una sequenza di testo o, equivalentemente, quanto una sequenza di parole si adatti a un modello linguistico specifico). Abbiamo condotto una sperimentazione su un set di colloqui con soggetti sani o affetti da disturbi nello spettro delle demenza, e impiegato modelli linguistici diversi come gli N-grammi e GepPeTto, un modello linguistico basato su GPT-2. I migliori modelli hanno raggiunto un'accuratezza e un F-score molto alti e competitivi con lo stato dell'arte sia nella categorizzazione dei soggetti dementi, sia dai soggetti appartenenti al gruppo di controllo.
ENG
In this work we explore how language models can be employed to analyze language and discriminate between subjects affected by mental disorders (across a broad spectrum, falling within the realm of dementia) and healthy subjects, using the perplexity metric. Perplexity has been conceived as an intrinsic measure for evaluating language models (how suitable a given language model is for predicting a text sequence or, equivalently, how well a sequence of words fits into a specific language model). We conducted an experimentation on a dataset of interviews with both healthy subjects and people affected by dementia, employing different language models such as N-grams and GepPeTto, a language model for Italian and based on GPT-2. Our best-performing models achieved very high accuracy and competitive F-scores compared to the state-of-the-art, both in categorizing subjects with dementia and those in the control group.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
962697_master_thesis_grandi.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.71 MB
Formato Adobe PDF
2.71 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/144564