Ovarian cancer is a low incidence but lethal disease for which early detection and medical treatments at the hands of specialized clinicians is known to improve survival rates. Among multiple imaging modalities, transvaginal and/or abdominal ultrasound are widely recognized as standard preoperative practices to characterize the nature of an ovarian tumor. In recent years, \gls{ml} algorithms have been increasingly employed for biomedical applications, especially for \gls{cad} systems. Promising results on ML-based CAD systems have been reported in multiple studies. In particular, \gls{dl} based approaches, have quite recently started to be employed in ovarian cancer detection. \gls{dl} models are known to be data-hungry. Indeed, fitting millions of model parameters to achieve acceptable performance and good generalization capabilities, require a large amount of data points, usually greater than the traditional\gls{ml} approaches. On the other hand, in medical settings, it is relatively hard to obtain high quality, manually annotated and representative datasets. The problem of well curated datasets is exacerbated by the intrinsic characteristics of the Ultrasound (US) modality (ie. low signal-to-noise ratio, low resolution, inter-operator variability) and clinical examination conditions (ie. patient mobility, different equipment and conventions among centers). Recently a major trend called \textit{data-centric AI} emerged among practitioners and academics. The aim of this current of thought is to shift the focus from the role played by learning algorithms and models architectures in ML tasks, in favor of a more attentive and systematic data processing. The work discussed in the present manuscript, follows the rationale of data-centric AI. In particular, we demonstrates how the performance of a predictive DL model can be increased by solid data management activities, spanning from cloud data ingestion to quality assurance and governance, both for input data and output artifacts produced during data pre-processing pipelines and model training. Through empirical evaluation, we show how well established techniques -- like data-augmentation -- can help to mimic the variability of low controlled clinical environment and improve model performance in a little data regime. Moreover \hl{we show} how developing interactive and graphic tools for \gls{ml} practitioners can play a fundamental role for shedding light on inherently opaque behaviour of \gls{dl} ``black box`` models.

Il tumore ovarico è una patologia con bassa incidenza ma letale per la quale, la rilevazione e il trattamento clinico in centri ad alto volume e da clinici specializzati permette di migliorare il tasso di sopravvivenza. Tra le molteplici modalità di imaging diagnostico, l'ecografia transvaginale e/o addominale, è ampiamente riconosciuta come pratica standard per la caratterizzazione preoperativa della natura del tumore ovarico. Recentemente, gli algoritmi di Machine Learning (ML) vengono sempre più utilizzati in applicazioni biomediche, specialmente per sistemi di Computer Aided Diagnosis (CAD). Risultati promettenti sui sistemi CAD basati su ML sono stati riportati in molteplici studi e recentemente, per la diagnosi del tumore ovarico, sono stati esplorati approcci basati sul Deep Learning (DL). I modelli basati su DL sono ben riconosciuti per la loro bassa efficienza dei dati. L'apprendimento di milioni di parametri per raggiungere performance accettabili e buone capacità di generalizzazione, richiedono un elevato numero di dati, solitamente maggiore degli approcci tradizionali. D'altro canto, in ambiente medico, risulta relativamente difficile ottenere dataset rappresentativi, annotati manualmente e di elevata qualità. Il problema di ottenere un dataset ben curato è aggravato dalle caratteristiche intrinseche del segnale ecografico (basso signal-to-noise ratio , bassa risoluzione, variabilità inter-operatore) e dall'ambiente in cui si svolge l'esame clinico (mobilità del pazienze, differente strumentazione e convenzioni tra i centri clinici). Negli ultimi anni, è emerso in ambiente professionale e accademico, un trend chiamato \textit{data-centric AI}. L'obiettivo principale di questo movimento è il ri-bilanciamento del ruolo degli algoritmi di learning e architetture dei modelli, in favore di un processamento sistematico dei dati. Il lavoro qui presentato, segue quello che è il fondamento logico della data-centric AI, mostrando come le performance di un modello predittivo basato su DL possono essere migliorate da robuste attività di gestione dei dati, che spaziano dall'ingestione dei dati presenti nel could, alla valutazione della qualità e governance, sia per i dati di input che per quelli di output derivanti dalle pipeline di processamento dati e dal training del modello. Attaverso una valutazione empirica, mostriamo come tecniche ben consolidate come la \textit{data-augmentation} può aiutare a riprodurre la variabilità di un ambiente clinico scarsamente controllato e migliorare le performance del modello in un regime con scarsità di dati. Inoltre mostriamo come lo sviluppo di tools interattivi che favoriscono l'osservabilità potrebbero giocare un ruolo fondamentale per far luce sul comportamento inerentemente opaco dei modelli di DL ``black box''.

Rilevamento del cancro ovarico da ecografia utilizzando il deep learning: dai dati grezzi ad un dataset medicale pronto all'uso

FINA, PIO RAFFAELE
2020/2021

Abstract

Il tumore ovarico è una patologia con bassa incidenza ma letale per la quale, la rilevazione e il trattamento clinico in centri ad alto volume e da clinici specializzati permette di migliorare il tasso di sopravvivenza. Tra le molteplici modalità di imaging diagnostico, l'ecografia transvaginale e/o addominale, è ampiamente riconosciuta come pratica standard per la caratterizzazione preoperativa della natura del tumore ovarico. Recentemente, gli algoritmi di Machine Learning (ML) vengono sempre più utilizzati in applicazioni biomediche, specialmente per sistemi di Computer Aided Diagnosis (CAD). Risultati promettenti sui sistemi CAD basati su ML sono stati riportati in molteplici studi e recentemente, per la diagnosi del tumore ovarico, sono stati esplorati approcci basati sul Deep Learning (DL). I modelli basati su DL sono ben riconosciuti per la loro bassa efficienza dei dati. L'apprendimento di milioni di parametri per raggiungere performance accettabili e buone capacità di generalizzazione, richiedono un elevato numero di dati, solitamente maggiore degli approcci tradizionali. D'altro canto, in ambiente medico, risulta relativamente difficile ottenere dataset rappresentativi, annotati manualmente e di elevata qualità. Il problema di ottenere un dataset ben curato è aggravato dalle caratteristiche intrinseche del segnale ecografico (basso signal-to-noise ratio , bassa risoluzione, variabilità inter-operatore) e dall'ambiente in cui si svolge l'esame clinico (mobilità del pazienze, differente strumentazione e convenzioni tra i centri clinici). Negli ultimi anni, è emerso in ambiente professionale e accademico, un trend chiamato \textit{data-centric AI}. L'obiettivo principale di questo movimento è il ri-bilanciamento del ruolo degli algoritmi di learning e architetture dei modelli, in favore di un processamento sistematico dei dati. Il lavoro qui presentato, segue quello che è il fondamento logico della data-centric AI, mostrando come le performance di un modello predittivo basato su DL possono essere migliorate da robuste attività di gestione dei dati, che spaziano dall'ingestione dei dati presenti nel could, alla valutazione della qualità e governance, sia per i dati di input che per quelli di output derivanti dalle pipeline di processamento dati e dal training del modello. Attaverso una valutazione empirica, mostriamo come tecniche ben consolidate come la \textit{data-augmentation} può aiutare a riprodurre la variabilità di un ambiente clinico scarsamente controllato e migliorare le performance del modello in un regime con scarsità di dati. Inoltre mostriamo come lo sviluppo di tools interattivi che favoriscono l'osservabilità potrebbero giocare un ruolo fondamentale per far luce sul comportamento inerentemente opaco dei modelli di DL ``black box''.
ENG
Ovarian cancer is a low incidence but lethal disease for which early detection and medical treatments at the hands of specialized clinicians is known to improve survival rates. Among multiple imaging modalities, transvaginal and/or abdominal ultrasound are widely recognized as standard preoperative practices to characterize the nature of an ovarian tumor. In recent years, \gls{ml} algorithms have been increasingly employed for biomedical applications, especially for \gls{cad} systems. Promising results on ML-based CAD systems have been reported in multiple studies. In particular, \gls{dl} based approaches, have quite recently started to be employed in ovarian cancer detection. \gls{dl} models are known to be data-hungry. Indeed, fitting millions of model parameters to achieve acceptable performance and good generalization capabilities, require a large amount of data points, usually greater than the traditional\gls{ml} approaches. On the other hand, in medical settings, it is relatively hard to obtain high quality, manually annotated and representative datasets. The problem of well curated datasets is exacerbated by the intrinsic characteristics of the Ultrasound (US) modality (ie. low signal-to-noise ratio, low resolution, inter-operator variability) and clinical examination conditions (ie. patient mobility, different equipment and conventions among centers). Recently a major trend called \textit{data-centric AI} emerged among practitioners and academics. The aim of this current of thought is to shift the focus from the role played by learning algorithms and models architectures in ML tasks, in favor of a more attentive and systematic data processing. The work discussed in the present manuscript, follows the rationale of data-centric AI. In particular, we demonstrates how the performance of a predictive DL model can be increased by solid data management activities, spanning from cloud data ingestion to quality assurance and governance, both for input data and output artifacts produced during data pre-processing pipelines and model training. Through empirical evaluation, we show how well established techniques -- like data-augmentation -- can help to mimic the variability of low controlled clinical environment and improve model performance in a little data regime. Moreover \hl{we show} how developing interactive and graphic tools for \gls{ml} practitioners can play a fundamental role for shedding light on inherently opaque behaviour of \gls{dl} ``black box`` models.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
931168_tesi_magistrale_fina_931168.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 10.53 MB
Formato Adobe PDF
10.53 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/69962