Automatic Speech Recognition (ASR) is a rapidly evolving field of research, both in terms of adopted models and potential applications. This thesis is part of a project aimed at the early diagnosis of senile dementia, a neurodegenerative disease with a growing healthcare and social impact. Currently, the existing diagnostic pipeline relies on the linguistic analysis of manually transcribed interviews with elderly patients, using specific measures to identify linguistic anomalies typical of cognitive decline. This thesis explores the integration of the OpenAI Whisper model to automate the transcription process, with the goal of improving the system’s efficiency and scalability without compromising diagnostic accuracy. To validate this hypothesis, a corpus of interviews in Italian was built, collected from a sample of elderly subjects, and used both to assess transcription quality and to analyze its impact on the diagnostic pipeline. The results are highly encouraging and demonstrate that advanced ASR systems can effectively support dementia diagnosis by reducing transcription time and costs without compromising accuracy.
Il riconoscimento automatico del parlato (Automatic Speech Recognition, ASR) è un campo di ricerca in continua evoluzione, sia per i modelli adottati sia per le possibili applicazioni. Questa tesi si inserisce in un progetto volto alla diagnosi precoce della demenza senile, una patologia neurodegenerativa di crescente impatto sanitario e sociale. Attualmente, la pipeline diagnostica esistente si basa sull’analisi linguistica di trascrizioni manuali di interviste a pazienti anziani, utilizzando misure specifiche per identificare anomalie linguistiche tipiche del decadimento cognitivo. Questa tesi esplora l’integrazione del modello OpenAI Whisper per automatizzare il processo di trascrizione, con l’obiettivo di migliorare l’efficienza e la scalabilità del sistema senza compromettere l’accuratezza diagnostica. Per validare questa ipotesi è stato costruito un corpus di interviste in lingua italiana, raccolte da un campione di soggetti anziani; tale corpus è stato quindi utilizzato sia per valutare la qualità delle trascrizioni sia per analizzarne l’impatto sulla pipeline diagnostica. I risultati sono molto incoraggianti e dimostrano che l’uso di strumenti per l’ASR può supportare efficacemente la diagnosi della demenza, riducendo i tempi e i costi di trascrizione senza ridurre i livelli di accuratezza del sistema nel categorizzare soggetti sani e affetti da deficit cognitivo.
Il ruolo della trascrizione automatica in un sistema per la diagnosi precoce della demenza senile. Creazione di un corpus e risultati sperimentali sull’italiano.
BARACCO, MATTEO
2023/2024
Abstract
Il riconoscimento automatico del parlato (Automatic Speech Recognition, ASR) è un campo di ricerca in continua evoluzione, sia per i modelli adottati sia per le possibili applicazioni. Questa tesi si inserisce in un progetto volto alla diagnosi precoce della demenza senile, una patologia neurodegenerativa di crescente impatto sanitario e sociale. Attualmente, la pipeline diagnostica esistente si basa sull’analisi linguistica di trascrizioni manuali di interviste a pazienti anziani, utilizzando misure specifiche per identificare anomalie linguistiche tipiche del decadimento cognitivo. Questa tesi esplora l’integrazione del modello OpenAI Whisper per automatizzare il processo di trascrizione, con l’obiettivo di migliorare l’efficienza e la scalabilità del sistema senza compromettere l’accuratezza diagnostica. Per validare questa ipotesi è stato costruito un corpus di interviste in lingua italiana, raccolte da un campione di soggetti anziani; tale corpus è stato quindi utilizzato sia per valutare la qualità delle trascrizioni sia per analizzarne l’impatto sulla pipeline diagnostica. I risultati sono molto incoraggianti e dimostrano che l’uso di strumenti per l’ASR può supportare efficacemente la diagnosi della demenza, riducendo i tempi e i costi di trascrizione senza ridurre i livelli di accuratezza del sistema nel categorizzare soggetti sani e affetti da deficit cognitivo.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Triennale_Matteo_Baracco.pdf
non disponibili
Descrizione: Tesi Baracco Matteo.
Dimensione
1.34 MB
Formato
Adobe PDF
|
1.34 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/163962