L'incremento della mole di dati generato negli ultimi anni dalle analisi del DNA, note in ambitobiologico come sequenziamento, ha portato allo sviluppo di molti algoritmi per la loro analisi. Un problema attuale nell'utilizzo dei programmi sviluppati per l'analisi dei dati del DNA è ladifficoltà di riproducibilità dei risultati ottenuti. Questo è dovuto alla mancanza di sufficienti in-formazioni per la riproducibilità dell'esperimento e dalla forte variabilità dei risultati ottenuti concombinazioni diverse di algoritmi utilizzati per l'analisi.In questa tesi verranno analizzati gli algoritmi che vengono utilizzati per identificare le variantigenetiche (mutazioni) all'interno di campioni biologici. Per l'identificazione di queste varianti so-no state sviluppate diverse pipeline, ossia un insieme di componenti software collegati fra di loroin modo tale che l'output di un suo elemento sia l'ingresso di quello successivo. Le pipeline sipongono come obiettivo quello di creare un insieme di tools che processano i dati grezzi generatidall'analisi del DNA producendo un determinato file di output. All'interno delle pipeline vengonoscelte combinazioni di tools che, utilizzati insieme, possono dimostrarsi particolarmente efficiential fine di ottenere un determinato risultato biologico. Il confronto degli output prodotti dalla pipe-line eseguita con due diverse combinazioni di tools permette di farsi un'idea dell'accuratezza deirisultati, che saranno tanto più significativi quanto più i due output coincidono.Nella prima parte di questa tesi verrà discusso il funzionamento della tecnologia Docker e del-la pipeline TCGA MC3 nell'ambito del rilevamento di varianti nel DNA, basandoci sull'articolo pubblicato da Kyle Ellrott, et. al nel 2018 [1]. Questa pipeline ha permesso di integrare gli outputdi più pipeline dedicate all'elaborazione dei dati per l'identificazione di varianti del DNA, generando un singolo output contenente i dati in comune. La tecnologia Docker permette a TCGA MC3 diessere un sistema indipendente dalla piattaforma permettendone quindi il suo facile riutilizzo.In questo elaborato verrà quindi illustrato ed analizzato il funzionamento degli algoritmi inclusi inquesta pipeline. Nello specifico verranno studiati algoritmi dedicati all'analisi dei dati derivati dalsequenziamento del DNA estratto da un campione tumorale e da un campione di tessuto sano a lui adiacente. Al fine di verificare la riproducibilità e la facilità di utilizzo dei tools inclusi in TCGAMC3, nella seconda parte di questo studio, verranno invece mostrati i risultati ottenuti dall'esecuzione di questi tools su un campione ristretto di dati. I risultati da noi ottenuti saranno confrontaticon quelli ufficiali pubblicati dagli studi TCGA. Gli algoritmi verranno infine confrontati fra di loro in termini di tempi di esecuzione, di qualità dei risultati e di praticità di utilizzo.
Analisi e confronto di algoritmi per l'identificazione di mutazioni genomiche
DALMASSO, GIANLUCA
2018/2019
Abstract
L'incremento della mole di dati generato negli ultimi anni dalle analisi del DNA, note in ambitobiologico come sequenziamento, ha portato allo sviluppo di molti algoritmi per la loro analisi. Un problema attuale nell'utilizzo dei programmi sviluppati per l'analisi dei dati del DNA è ladifficoltà di riproducibilità dei risultati ottenuti. Questo è dovuto alla mancanza di sufficienti in-formazioni per la riproducibilità dell'esperimento e dalla forte variabilità dei risultati ottenuti concombinazioni diverse di algoritmi utilizzati per l'analisi.In questa tesi verranno analizzati gli algoritmi che vengono utilizzati per identificare le variantigenetiche (mutazioni) all'interno di campioni biologici. Per l'identificazione di queste varianti so-no state sviluppate diverse pipeline, ossia un insieme di componenti software collegati fra di loroin modo tale che l'output di un suo elemento sia l'ingresso di quello successivo. Le pipeline sipongono come obiettivo quello di creare un insieme di tools che processano i dati grezzi generatidall'analisi del DNA producendo un determinato file di output. All'interno delle pipeline vengonoscelte combinazioni di tools che, utilizzati insieme, possono dimostrarsi particolarmente efficiential fine di ottenere un determinato risultato biologico. Il confronto degli output prodotti dalla pipe-line eseguita con due diverse combinazioni di tools permette di farsi un'idea dell'accuratezza deirisultati, che saranno tanto più significativi quanto più i due output coincidono.Nella prima parte di questa tesi verrà discusso il funzionamento della tecnologia Docker e del-la pipeline TCGA MC3 nell'ambito del rilevamento di varianti nel DNA, basandoci sull'articolo pubblicato da Kyle Ellrott, et. al nel 2018 [1]. Questa pipeline ha permesso di integrare gli outputdi più pipeline dedicate all'elaborazione dei dati per l'identificazione di varianti del DNA, generando un singolo output contenente i dati in comune. La tecnologia Docker permette a TCGA MC3 diessere un sistema indipendente dalla piattaforma permettendone quindi il suo facile riutilizzo.In questo elaborato verrà quindi illustrato ed analizzato il funzionamento degli algoritmi inclusi inquesta pipeline. Nello specifico verranno studiati algoritmi dedicati all'analisi dei dati derivati dalsequenziamento del DNA estratto da un campione tumorale e da un campione di tessuto sano a lui adiacente. Al fine di verificare la riproducibilità e la facilità di utilizzo dei tools inclusi in TCGAMC3, nella seconda parte di questo studio, verranno invece mostrati i risultati ottenuti dall'esecuzione di questi tools su un campione ristretto di dati. I risultati da noi ottenuti saranno confrontaticon quelli ufficiali pubblicati dagli studi TCGA. Gli algoritmi verranno infine confrontati fra di loro in termini di tempi di esecuzione, di qualità dei risultati e di praticità di utilizzo.File | Dimensione | Formato | |
---|---|---|---|
837295_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
895.62 kB
Formato
Adobe PDF
|
895.62 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/43124