The following work consists in the creation and the computational linguistic analysis of Corpus Anchise. The corpus collects transcripts of the health care worker / Alzheimer patient conversations carried out by the Anchise Group over the period from 2007 to today. The Anchise Group is an association of experts for the research, training and treatment of elderly people with Alzheimer's disease. For this purpose, Python was used as a programming language and the Apache Tika library for text extraction. This process was divided into two phases, through a first algorithm it was possible to extract the part of the text relating to conversations while a second algorithm extracted the extralinguisitic data concerning age, sex, the result of the Mini-Mental Test and the date on which the conversation took place. Thus the Corpus Anchise was created on which computational linguistic analyzes were carried out at the lexical, morphological and syntactic levels. As for linguistic analysis, the StanfordNLP library, a Natural Language Processing software, was used. At the lexical level, lemmatization, tokenization was carried out and the lexical richness (Types-Token Ratio) was calculated. At the morphological level, the POS (Part of Speech Tagging) was made with which the words of the text were divided into morphological classes. At the syntactic level, the parsing was performed on the syntactic dependencies. Finally, from the results obtained through the use of StanfordNLP, it was possible to calculate the frequency of some typical phenomena of Alzheimer's language.

Il seguente elaborato di tesi consiste nella creazione e analisi linguistica computazionale del Corpus Anchise. Il corpus raccoglie le trascrizioni di conversazioni operatore sanitario/paziente Alzheimer effettuate dal Gruppo Anchise nell'arco temporale che va dal 2007 a oggi. Il Gruppo Anchise è un'associazione di esperti per la ricerca, la formazione e la cura di anziani con malattia di Alzheimer. A tale scopo, è stato utilizzato Python come linguaggio di programmazione e la libreria Apache Tika per l'estrazione del testo. Questo processo è stato suddiviso in due fasi, attraverso un primo algoritmo è stato possibile estrarre la parte di testo inerente alle conversazioni mentre un secondo algoritmo ha estratto i dati extralinguisitici riguardanti l'età, il sesso, il risultato del Mini-Mental Test e la data in cui si è svolta la conversazione. È stato così creato il Corpus Anchise su cui sono state fatte delle analisi linguistico computazionali ai livelli lessicale, morfologico e sintattico. Per quanto riguarda le analisi linguistiche è stata utilizzata la libreria StanfordNLP, un software di Natural Language Processing. A livello lessicale è stata effettuata la lemmatizzazione, la tokenizzazione ed è stato calcolato l'indice di ricchezza lessicale (Types-Token Ratio). A livello morfologico è stato fatto il POS (Part of Speech Tagging) con cui sono state suddivise le parole del testo in classi morfologiche. A livello sintattico è stato effettuato il parsing relativo alle dipendenze sintattiche. Infine, dai risultati ottenuti attraverso l'utilizzo di StanfordNLP, è stato possibile calcolare la frequenza di alcuni fenomeni tipici del linguaggio alzheimeriano.

Costruzione del Corpus Anchise e analisi linguistica del linguaggio Alzheimer con metodi computazionali

BENVENUTI, NICOLA
2018/2019

Abstract

Il seguente elaborato di tesi consiste nella creazione e analisi linguistica computazionale del Corpus Anchise. Il corpus raccoglie le trascrizioni di conversazioni operatore sanitario/paziente Alzheimer effettuate dal Gruppo Anchise nell'arco temporale che va dal 2007 a oggi. Il Gruppo Anchise è un'associazione di esperti per la ricerca, la formazione e la cura di anziani con malattia di Alzheimer. A tale scopo, è stato utilizzato Python come linguaggio di programmazione e la libreria Apache Tika per l'estrazione del testo. Questo processo è stato suddiviso in due fasi, attraverso un primo algoritmo è stato possibile estrarre la parte di testo inerente alle conversazioni mentre un secondo algoritmo ha estratto i dati extralinguisitici riguardanti l'età, il sesso, il risultato del Mini-Mental Test e la data in cui si è svolta la conversazione. È stato così creato il Corpus Anchise su cui sono state fatte delle analisi linguistico computazionali ai livelli lessicale, morfologico e sintattico. Per quanto riguarda le analisi linguistiche è stata utilizzata la libreria StanfordNLP, un software di Natural Language Processing. A livello lessicale è stata effettuata la lemmatizzazione, la tokenizzazione ed è stato calcolato l'indice di ricchezza lessicale (Types-Token Ratio). A livello morfologico è stato fatto il POS (Part of Speech Tagging) con cui sono state suddivise le parole del testo in classi morfologiche. A livello sintattico è stato effettuato il parsing relativo alle dipendenze sintattiche. Infine, dai risultati ottenuti attraverso l'utilizzo di StanfordNLP, è stato possibile calcolare la frequenza di alcuni fenomeni tipici del linguaggio alzheimeriano.
ITA
The following work consists in the creation and the computational linguistic analysis of Corpus Anchise. The corpus collects transcripts of the health care worker / Alzheimer patient conversations carried out by the Anchise Group over the period from 2007 to today. The Anchise Group is an association of experts for the research, training and treatment of elderly people with Alzheimer's disease. For this purpose, Python was used as a programming language and the Apache Tika library for text extraction. This process was divided into two phases, through a first algorithm it was possible to extract the part of the text relating to conversations while a second algorithm extracted the extralinguisitic data concerning age, sex, the result of the Mini-Mental Test and the date on which the conversation took place. Thus the Corpus Anchise was created on which computational linguistic analyzes were carried out at the lexical, morphological and syntactic levels. As for linguistic analysis, the StanfordNLP library, a Natural Language Processing software, was used. At the lexical level, lemmatization, tokenization was carried out and the lexical richness (Types-Token Ratio) was calculated. At the morphological level, the POS (Part of Speech Tagging) was made with which the words of the text were divided into morphological classes. At the syntactic level, the parsing was performed on the syntactic dependencies. Finally, from the results obtained through the use of StanfordNLP, it was possible to calculate the frequency of some typical phenomena of Alzheimer's language.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
851501_tesi.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.59 MB
Formato Adobe PDF
2.59 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/147691