Automatic Speech Recognition (ASR) is a rapidly evolving field of research, both in terms of adopted models and potential applications. This thesis is part of a project aimed at the early diagnosis of senile dementia, a neurodegenerative disease with a growing healthcare and social impact. Currently, the existing diagnostic pipeline relies on the linguistic analysis of manually transcribed interviews with elderly patients, using specific measures to identify linguistic anomalies typical of cognitive decline. This thesis explores the integration of the OpenAI Whisper model to automate the transcription process, with the goal of improving the system’s efficiency and scalability without compromising diagnostic accuracy. To validate this hypothesis, a corpus of interviews in Italian was built, collected from a sample of elderly subjects, and used both to assess transcription quality and to analyze its impact on the diagnostic pipeline. The results are highly encouraging and demonstrate that advanced ASR systems can effectively support dementia diagnosis by reducing transcription time and costs without compromising accuracy.

Il riconoscimento automatico del parlato (Automatic Speech Recognition, ASR) è un campo di ricerca in continua evoluzione, sia per i modelli adottati sia per le possibili applicazioni. Questa tesi si inserisce in un progetto volto alla diagnosi precoce della demenza senile, una patologia neurodegenerativa di crescente impatto sanitario e sociale. Attualmente, la pipeline diagnostica esistente si basa sull’analisi linguistica di trascrizioni manuali di interviste a pazienti anziani, utilizzando misure specifiche per identificare anomalie linguistiche tipiche del decadimento cognitivo. Questa tesi esplora l’integrazione del modello OpenAI Whisper per automatizzare il processo di trascrizione, con l’obiettivo di migliorare l’efficienza e la scalabilità del sistema senza compromettere l’accuratezza diagnostica. Per validare questa ipotesi è stato costruito un corpus di interviste in lingua italiana, raccolte da un campione di soggetti anziani; tale corpus è stato quindi utilizzato sia per valutare la qualità delle trascrizioni sia per analizzarne l’impatto sulla pipeline diagnostica. I risultati sono molto incoraggianti e dimostrano che l’uso di strumenti per l’ASR può supportare efficacemente la diagnosi della demenza, riducendo i tempi e i costi di trascrizione senza ridurre i livelli di accuratezza del sistema nel categorizzare soggetti sani e affetti da deficit cognitivo.

Il ruolo della trascrizione automatica in un sistema per la diagnosi precoce della demenza senile. Creazione di un corpus e risultati sperimentali sull’italiano.

BARACCO, MATTEO
2023/2024

Abstract

Il riconoscimento automatico del parlato (Automatic Speech Recognition, ASR) è un campo di ricerca in continua evoluzione, sia per i modelli adottati sia per le possibili applicazioni. Questa tesi si inserisce in un progetto volto alla diagnosi precoce della demenza senile, una patologia neurodegenerativa di crescente impatto sanitario e sociale. Attualmente, la pipeline diagnostica esistente si basa sull’analisi linguistica di trascrizioni manuali di interviste a pazienti anziani, utilizzando misure specifiche per identificare anomalie linguistiche tipiche del decadimento cognitivo. Questa tesi esplora l’integrazione del modello OpenAI Whisper per automatizzare il processo di trascrizione, con l’obiettivo di migliorare l’efficienza e la scalabilità del sistema senza compromettere l’accuratezza diagnostica. Per validare questa ipotesi è stato costruito un corpus di interviste in lingua italiana, raccolte da un campione di soggetti anziani; tale corpus è stato quindi utilizzato sia per valutare la qualità delle trascrizioni sia per analizzarne l’impatto sulla pipeline diagnostica. I risultati sono molto incoraggianti e dimostrano che l’uso di strumenti per l’ASR può supportare efficacemente la diagnosi della demenza, riducendo i tempi e i costi di trascrizione senza ridurre i livelli di accuratezza del sistema nel categorizzare soggetti sani e affetti da deficit cognitivo.
The role of automatic transcription in a system for the early diagnosis of senile dementia. Creation of a corpus and experimental results on the Italian.
Automatic Speech Recognition (ASR) is a rapidly evolving field of research, both in terms of adopted models and potential applications. This thesis is part of a project aimed at the early diagnosis of senile dementia, a neurodegenerative disease with a growing healthcare and social impact. Currently, the existing diagnostic pipeline relies on the linguistic analysis of manually transcribed interviews with elderly patients, using specific measures to identify linguistic anomalies typical of cognitive decline. This thesis explores the integration of the OpenAI Whisper model to automate the transcription process, with the goal of improving the system’s efficiency and scalability without compromising diagnostic accuracy. To validate this hypothesis, a corpus of interviews in Italian was built, collected from a sample of elderly subjects, and used both to assess transcription quality and to analyze its impact on the diagnostic pipeline. The results are highly encouraging and demonstrate that advanced ASR systems can effectively support dementia diagnosis by reducing transcription time and costs without compromising accuracy.
Autorizzo consultazione esterna dell'elaborato
File in questo prodotto:
File Dimensione Formato  
Tesi_Triennale_Matteo_Baracco.pdf

non disponibili

Descrizione: Tesi Baracco Matteo.
Dimensione 1.34 MB
Formato Adobe PDF
1.34 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/163962