La predizione di cambiamenti di stabilità (Energia libera di Gibbs) dovuta a mutazioni nella sequenza amminoacidica è di grande rilevanza per la comprensione delle funzioni che le proteine devono svolgere. Infatti le mutazioni non influenzano soltanto la stabilità della struttura tridimensionale della proteina, ma ne influenzano anche le interazioni producendo effetti a cascata nella regolazione genica e nelle reti metaboliche. Riuscire a comprendere fino in fondo gli effetti che le mutazioni producono potrebbe quindi consentire di migliorare la nostra conoscenza di malattie complesse. Nel corso del tempo sono stati implementati molti metodi per la predizione di cambiamenti nell'energia libera di Gibbs (∆∆G) tra la proteina wild-type e la proteina mutante. Lo scopo del presente lavoro è quello di utilizzare tecniche di Deep Learning per poter fornire predizioni accurate che possano migliorare i metodi già esistenti in questo campo di ricerca. I pochi dati a disposizione rendono particolarmente difficile l'allenamento di metodi che raggiungano performance che superino i modelli ad oggi in uso. Perciò siamo partiti da una base-line che consiste in un predittore 'untrained': DDGun. Questo è un metodo basato su informazioni di sequenza e di struttura che permette di predire i cambiamenti nell'energia libera di Gibbs raggiungendo performance comparabili allo stato dell'arte, ma portando con sé una proprietà che molti predittori non considerano: L'antisimmetria. ∆∆G(A→B)=\ -∆∆G(B→A) Utilizzando come input per una rete neurale la codifica della mutazione presente nella sequenza amminoacidica assieme ad informazioni di struttura è possibile emulare il comportamento di DDGun costruendo un buon predittore da cui partire che preserva le proprietà di antisimmetria. Come descriveremo meglio in seguito, riuscire ad apprendere un altro algoritmo in questo modo, permette di agevolare moltissimo il processo predittivo per nuove mutazioni. Come vedremo, attraverso tecniche di transfer learning e data-augmentation è possibile migliorare i nostri modelli mantenendo le proprietà desiderate. Inizieremo al Capitolo 1 parlando di proteine e delle loro funzioni, trattando poi il problema del cambiamento di stabilità da un punto di vista termodinamico. I capitoli 2 e 3 saranno interamente dedicati al Machine Learning. Partiremo dalle basi mettendo in luce gli aspetti fondamentali del processo di apprendimento fino ad arrivare alle più moderne reti neurali. Al capitolo 4 vedremo alcuni metodi recenti per la predizione di cambiamenti di stabilità e introdurremo il problema dell'antisimmetria in modo più formale. Al capitolo 5 descriveremo le procedure e i metodi adottati durante il lavoro di tesi, mettendo in luce i punti salienti e i risultati ottenuti.
Metodi di Deep Learning per la predizione di cambiamenti di stabilità di proteine
PANCOTTI, CORRADO
2019/2020
Abstract
La predizione di cambiamenti di stabilità (Energia libera di Gibbs) dovuta a mutazioni nella sequenza amminoacidica è di grande rilevanza per la comprensione delle funzioni che le proteine devono svolgere. Infatti le mutazioni non influenzano soltanto la stabilità della struttura tridimensionale della proteina, ma ne influenzano anche le interazioni producendo effetti a cascata nella regolazione genica e nelle reti metaboliche. Riuscire a comprendere fino in fondo gli effetti che le mutazioni producono potrebbe quindi consentire di migliorare la nostra conoscenza di malattie complesse. Nel corso del tempo sono stati implementati molti metodi per la predizione di cambiamenti nell'energia libera di Gibbs (∆∆G) tra la proteina wild-type e la proteina mutante. Lo scopo del presente lavoro è quello di utilizzare tecniche di Deep Learning per poter fornire predizioni accurate che possano migliorare i metodi già esistenti in questo campo di ricerca. I pochi dati a disposizione rendono particolarmente difficile l'allenamento di metodi che raggiungano performance che superino i modelli ad oggi in uso. Perciò siamo partiti da una base-line che consiste in un predittore 'untrained': DDGun. Questo è un metodo basato su informazioni di sequenza e di struttura che permette di predire i cambiamenti nell'energia libera di Gibbs raggiungendo performance comparabili allo stato dell'arte, ma portando con sé una proprietà che molti predittori non considerano: L'antisimmetria. ∆∆G(A→B)=\ -∆∆G(B→A) Utilizzando come input per una rete neurale la codifica della mutazione presente nella sequenza amminoacidica assieme ad informazioni di struttura è possibile emulare il comportamento di DDGun costruendo un buon predittore da cui partire che preserva le proprietà di antisimmetria. Come descriveremo meglio in seguito, riuscire ad apprendere un altro algoritmo in questo modo, permette di agevolare moltissimo il processo predittivo per nuove mutazioni. Come vedremo, attraverso tecniche di transfer learning e data-augmentation è possibile migliorare i nostri modelli mantenendo le proprietà desiderate. Inizieremo al Capitolo 1 parlando di proteine e delle loro funzioni, trattando poi il problema del cambiamento di stabilità da un punto di vista termodinamico. I capitoli 2 e 3 saranno interamente dedicati al Machine Learning. Partiremo dalle basi mettendo in luce gli aspetti fondamentali del processo di apprendimento fino ad arrivare alle più moderne reti neurali. Al capitolo 4 vedremo alcuni metodi recenti per la predizione di cambiamenti di stabilità e introdurremo il problema dell'antisimmetria in modo più formale. Al capitolo 5 descriveremo le procedure e i metodi adottati durante il lavoro di tesi, mettendo in luce i punti salienti e i risultati ottenuti.File | Dimensione | Formato | |
---|---|---|---|
904329_tesi_pancotti.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
4.31 MB
Formato
Adobe PDF
|
4.31 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/156334