Recent development in second-generation sequencing technologies (short reads sequencing) allowed the replacement of ChIP-on-chip with ChIP-seq and microarrays for transcriptional profiling are gradually being replaced by RNA-seq. The related bioinformatics analysis is however still complex and is limiting the spread of these technologies as common laboratory practice. This thesis proposes a complete pipeline for primary analysis of ChIP-seq data built to identify putative target genes, correlate them with transcriptional activation and inactivation signals and calculate the consensus sequence. All pipeline was designed selecting the most appropriated software for each of the pipeline steps. As part of a collaboration with a group at BRIC Institute in Copenhagen the proposed pipeline has been successfully used to identify genes regulated by Prdm5, a transcriptional factor involved in bone development in mammals, and to better understand the molecular model of action of the protein. Regarding deep-sequencing of the transcriptome, this thesis presents the results of the identification of fusion products, chimeric transcripts often correlated to neoplastic transformations, in normal tissues using public-domain software. Results have been compared with published evidences based on supervised, Expressed Sequenced Tags-based (EST-based) approaches. The focus is set on efficiency and False Discovery Rate comparison between seven published software in order to highlight their strength and drawbacks and to provide information on which one could be the best choice depending on the characteristics of the dataset.
Il recente sviluppo di tecnologie di sequenziamento di seconda generazione (short reads sequencing) ha permesso la completa sostituzione della ChIP-on-chip con la Chip-seq e sta gradualmente sostituendo i microarray nello studio dei profili trascrizionali. L'uso di queste tecnologie nella comune pratica di laboratorio è però ancora limitata dalla complessità dell'analisi bioinformatica. In questa tesi proponiamo una completa pipeline di analisi primaria di dati di ChIP-seq con lo scopo di identificare geni bersaglio, correlarli con segnali di attivazione e inattivazione della trascrizione e calcolare la sequenza consensus, con un occhio di riguardo rispetto ai software esistenti e alle loro caratteristiche. Nell'ambito di una collaborazione con un gruppo danese, la pipeline è stata sfruttata con successo per l'identificazione dei geni bersaglio del fattore trascrizionale Prdm5, coinvolto nello sviluppo osseo dei mammiferi, e per la costruzione di un modello di azione molecolare della proteina. Spostando invece l'attenzione al sequenziamento del trascrittoma, presentiamo i risultati di una ricerca di prodotti di fusione, trascritti chimerici spesso correlati a trasformazioni neoplastiche, in tessuti normali sfruttando software di dominio pubblico. I risultati sono confrontati con le evidenze disponibili in letteratura e ottenute con approcci supervisionati basati su Expressed Sequenced Tags (EST). Particolare attenzione è stata prestata al confronto di efficienza e False Discovery rate di sette software pubblicati per mettere in luce punti di forza e punti deboli di ognuno e fornire indicazioni su quale possa essere la scelta migliore in dipendenza delle caratteristiche del dataset da analizzare.
Ottimizzazione di Protocolli per Analisi Dati di ChIP-seq e RNA-seq
CARRARA, MATTEO
2011/2012
Abstract
Il recente sviluppo di tecnologie di sequenziamento di seconda generazione (short reads sequencing) ha permesso la completa sostituzione della ChIP-on-chip con la Chip-seq e sta gradualmente sostituendo i microarray nello studio dei profili trascrizionali. L'uso di queste tecnologie nella comune pratica di laboratorio è però ancora limitata dalla complessità dell'analisi bioinformatica. In questa tesi proponiamo una completa pipeline di analisi primaria di dati di ChIP-seq con lo scopo di identificare geni bersaglio, correlarli con segnali di attivazione e inattivazione della trascrizione e calcolare la sequenza consensus, con un occhio di riguardo rispetto ai software esistenti e alle loro caratteristiche. Nell'ambito di una collaborazione con un gruppo danese, la pipeline è stata sfruttata con successo per l'identificazione dei geni bersaglio del fattore trascrizionale Prdm5, coinvolto nello sviluppo osseo dei mammiferi, e per la costruzione di un modello di azione molecolare della proteina. Spostando invece l'attenzione al sequenziamento del trascrittoma, presentiamo i risultati di una ricerca di prodotti di fusione, trascritti chimerici spesso correlati a trasformazioni neoplastiche, in tessuti normali sfruttando software di dominio pubblico. I risultati sono confrontati con le evidenze disponibili in letteratura e ottenute con approcci supervisionati basati su Expressed Sequenced Tags (EST). Particolare attenzione è stata prestata al confronto di efficienza e False Discovery rate di sette software pubblicati per mettere in luce punti di forza e punti deboli di ognuno e fornire indicazioni su quale possa essere la scelta migliore in dipendenza delle caratteristiche del dataset da analizzare.File | Dimensione | Formato | |
---|---|---|---|
323639_carrara_thesis_final.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
16.7 MB
Formato
Adobe PDF
|
16.7 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/155930