The number of radiological examinations carried out in Italy and in the world is constantly increasing and with it increased attention to the risks from ionizing radiations to which the population is exposed accordingly. The latest regulatory statements impose the need to store in combination with the images produced and the reports the quantities useful for a consistent assessment of these risks. In this sector, too, huge amounts of data are generated, whose analysis can provide useful indications for the optimization of the practices and the rationalization of the technological resources used. The tools for summarizing the information contained in these archives used so far are often not very efficient and in this context the idea of this thesis work is born, aimed at exploring the effectiveness and usefulness of the application of data mining methods in analysis of a health record of radiographic exposure data from computed tomography (CT) The dataset considered consists of more than 12,000 CT examinations with about 29,000 single scans, performed on three different devices within a calendar year. For each of these, 47 variables are stored, for a total of over a million data. After a first exploratory phase of theoretical evaluation on the applicability of the different data mining methods seen in the course of studies, it was decided to concentrate the investigation on cluster analysis and on the tools derived from its implementation. The K-means and Ward methods were the most suitable for the structure of the observed variables. The possibility of synthesising the salient information of thousands of exams has been verified, with dozens of types of diagnostic studies and different scanning protocols, in a maximum number of 15 clusters, with a high homogeneity rate both of the 12 characterizing variables used in the process that of the three resulting radiation dose indicators to the patient. For each equipment and for each of the clusters, an effective area of prevalent clinical use has been identified. The comparison of the distributions of the quantities of interest and the analysis of the anomalous values for the different clusters highlighted several possible interventions for improving radiological practices. The time of implementation of the analysis in relation to the amount of information obtained was fully compatible with the routine use of this instrument for the optimization of the patient's radiation protection. The classification obtained with the cluster analysis also lays the foundations for a rationalization of the different acquisition protocols recorded in the equipment control software and the nomenclators of the types of studies carried out, also useful in reporting the activity performed. The future developments of this work have already been partially tested in the final part of the study and concern in particular the use of Fuzzy methods and clusters analysis with mixed qualitative and quantitative variables. Several elements of interest have been highlighted, which can be fully explored following an improvement in the structure of the descriptive variables of these types of archives and through the adoption of computational resources with high performance.

Il numero di esami radiologici effettuati in Italia e nel mondo è in continuo aumento e con esso è cresciuta l'attenzione ai rischi da radiazioni ionizzanti ai quali è esposta di conseguenza la popolazione. Le ultime disposizioni normative impongono la necessità di archiviare in abbinamento alle immagini prodotte e ai referti anche le quantità utili per una valutazione consistente di tali rischi. Vengono così generati anche in questo settore ingenti moli di dati, la cui analisi può fornire indicazioni utili ai fini dell'ottimizzazione delle pratiche e della razionalizzazione delle risorse tecnologiche impiegate. Gli strumenti di sintesi delle informazioni contenuti in questi archivi utilizzati finora risultano spesso poco efficienti e in questo contesto nasce l'idea di questo lavoro di tesi, finalizzato ad esplorare l'efficacia e l'utilità dell'applicazione di metodi di data mining nell'analisi di un archivio sanitario di dati di esposizione radiologica da tomografia computerizzata (TC). Il dataset considerato consta di oltre 12000 esami TC composti da circa 29000 singole scansioni, effettuati su tre diverse apparecchiature nell'arco di un anno. Per ognuna di queste sono archiviate 47 variabili, per un totale di oltre un milione di dati. Dopo una prima fase esplorativa di valutazione teorica sull'applicabilità dei diversi metodi di data mining visti nel corso di studi, si è pensato di concentrare lo studio sulla cluster analysis e sugli strumenti derivati dalla sua implementazione. I metodi K-means e di Ward sono risultati i più adatti alla struttura delle variabili osservate. Si è verificata la possibilità di sintetizzare le informazioni salienti di migliaia di esami, con decine di tipologie di studi diagnostici e protocolli di scansione differenti, in un numero massimo di 15 clusters, con un tasso elevato di omogeneità sia delle 12 variabili caratterizzanti impiegate nel processo che dei tre indicatori di dose da radiazione al paziente risultanti. Per ogni apparecchiatura e per ciascuno dei clusters è stato individuato un effettivo ambito di impiego clinico prevalente. Il confronto delle distribuzioni delle quantità di interesse e l'analisi dei valori anomali per i diversi clusters ha evidenziato diversi possibili interventi di miglioramento delle pratiche radiologiche. I tempi di implementazione dell'analisi in rapporto alla quantità di informazioni ottenute sono risultati pienamente compatibili con un uso routinario di questo strumento per l'ottimizzazione della radioprotezione del paziente. La classificazione ottenuta con la cluster analysis pone inoltre le basi per una razionalizzazione dei diversi protocolli di acquisizione registrati nei software di controllo delle apparecchiature e dei nomenclatori delle tipologie di studi effettuati, utile anche in fase di rendicontazione dell'attività svolta. Gli sviluppi futuri di questo lavoro sono già stati in parte sperimentati nella parte conclusiva dello studio e riguardano in particolare l'utilizzo di metodi Fuzzy e di analisi dei clusters con variabili miste qualitative e quantitative. Sono stati evidenziati diversi elementi di interesse, che potranno essere esplorati appieno a seguito di un miglioramento della struttura delle variabili descrittive di queste tipologie di archivi e tramite l'adozione di risorse computazionali con prestazioni elevate.

APPLICAZIONE DI METODI DI DATA MINING AD UN ARCHIVIO SANITARIO DI DATI DI ESPOSIZIONE RADIOLOGICA

RAMPADO, OSVALDO
2016/2017

Abstract

Il numero di esami radiologici effettuati in Italia e nel mondo è in continuo aumento e con esso è cresciuta l'attenzione ai rischi da radiazioni ionizzanti ai quali è esposta di conseguenza la popolazione. Le ultime disposizioni normative impongono la necessità di archiviare in abbinamento alle immagini prodotte e ai referti anche le quantità utili per una valutazione consistente di tali rischi. Vengono così generati anche in questo settore ingenti moli di dati, la cui analisi può fornire indicazioni utili ai fini dell'ottimizzazione delle pratiche e della razionalizzazione delle risorse tecnologiche impiegate. Gli strumenti di sintesi delle informazioni contenuti in questi archivi utilizzati finora risultano spesso poco efficienti e in questo contesto nasce l'idea di questo lavoro di tesi, finalizzato ad esplorare l'efficacia e l'utilità dell'applicazione di metodi di data mining nell'analisi di un archivio sanitario di dati di esposizione radiologica da tomografia computerizzata (TC). Il dataset considerato consta di oltre 12000 esami TC composti da circa 29000 singole scansioni, effettuati su tre diverse apparecchiature nell'arco di un anno. Per ognuna di queste sono archiviate 47 variabili, per un totale di oltre un milione di dati. Dopo una prima fase esplorativa di valutazione teorica sull'applicabilità dei diversi metodi di data mining visti nel corso di studi, si è pensato di concentrare lo studio sulla cluster analysis e sugli strumenti derivati dalla sua implementazione. I metodi K-means e di Ward sono risultati i più adatti alla struttura delle variabili osservate. Si è verificata la possibilità di sintetizzare le informazioni salienti di migliaia di esami, con decine di tipologie di studi diagnostici e protocolli di scansione differenti, in un numero massimo di 15 clusters, con un tasso elevato di omogeneità sia delle 12 variabili caratterizzanti impiegate nel processo che dei tre indicatori di dose da radiazione al paziente risultanti. Per ogni apparecchiatura e per ciascuno dei clusters è stato individuato un effettivo ambito di impiego clinico prevalente. Il confronto delle distribuzioni delle quantità di interesse e l'analisi dei valori anomali per i diversi clusters ha evidenziato diversi possibili interventi di miglioramento delle pratiche radiologiche. I tempi di implementazione dell'analisi in rapporto alla quantità di informazioni ottenute sono risultati pienamente compatibili con un uso routinario di questo strumento per l'ottimizzazione della radioprotezione del paziente. La classificazione ottenuta con la cluster analysis pone inoltre le basi per una razionalizzazione dei diversi protocolli di acquisizione registrati nei software di controllo delle apparecchiature e dei nomenclatori delle tipologie di studi effettuati, utile anche in fase di rendicontazione dell'attività svolta. Gli sviluppi futuri di questo lavoro sono già stati in parte sperimentati nella parte conclusiva dello studio e riguardano in particolare l'utilizzo di metodi Fuzzy e di analisi dei clusters con variabili miste qualitative e quantitative. Sono stati evidenziati diversi elementi di interesse, che potranno essere esplorati appieno a seguito di un miglioramento della struttura delle variabili descrittive di queste tipologie di archivi e tramite l'adozione di risorse computazionali con prestazioni elevate.
ITA
The number of radiological examinations carried out in Italy and in the world is constantly increasing and with it increased attention to the risks from ionizing radiations to which the population is exposed accordingly. The latest regulatory statements impose the need to store in combination with the images produced and the reports the quantities useful for a consistent assessment of these risks. In this sector, too, huge amounts of data are generated, whose analysis can provide useful indications for the optimization of the practices and the rationalization of the technological resources used. The tools for summarizing the information contained in these archives used so far are often not very efficient and in this context the idea of this thesis work is born, aimed at exploring the effectiveness and usefulness of the application of data mining methods in analysis of a health record of radiographic exposure data from computed tomography (CT) The dataset considered consists of more than 12,000 CT examinations with about 29,000 single scans, performed on three different devices within a calendar year. For each of these, 47 variables are stored, for a total of over a million data. After a first exploratory phase of theoretical evaluation on the applicability of the different data mining methods seen in the course of studies, it was decided to concentrate the investigation on cluster analysis and on the tools derived from its implementation. The K-means and Ward methods were the most suitable for the structure of the observed variables. The possibility of synthesising the salient information of thousands of exams has been verified, with dozens of types of diagnostic studies and different scanning protocols, in a maximum number of 15 clusters, with a high homogeneity rate both of the 12 characterizing variables used in the process that of the three resulting radiation dose indicators to the patient. For each equipment and for each of the clusters, an effective area of prevalent clinical use has been identified. The comparison of the distributions of the quantities of interest and the analysis of the anomalous values for the different clusters highlighted several possible interventions for improving radiological practices. The time of implementation of the analysis in relation to the amount of information obtained was fully compatible with the routine use of this instrument for the optimization of the patient's radiation protection. The classification obtained with the cluster analysis also lays the foundations for a rationalization of the different acquisition protocols recorded in the equipment control software and the nomenclators of the types of studies carried out, also useful in reporting the activity performed. The future developments of this work have already been partially tested in the final part of the study and concern in particular the use of Fuzzy methods and clusters analysis with mixed qualitative and quantitative variables. Several elements of interest have been highlighted, which can be fully explored following an improvement in the structure of the descriptive variables of these types of archives and through the adoption of computational resources with high performance.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
924671_tesirampado.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 3.38 MB
Formato Adobe PDF
3.38 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/143810