Un processo può fallire in qualsiasi momento per molti e diversi motivi. In un sistema composto da molti processi, se non opportunamente progettato, un singolo processo può provocare il fallimento dell'intero sistema (single-point-of-failure). L'esecuzione di workflow su sistemi cloud-HPC (e multi-cloud) è particolarmente soggetta a fallimenti a causa della natura distribuita e fortemente asincrona della piattaforma di esecuzione. In queste condizioni l'esecuzione di applicazioni lunghe e complesse, come per esempio le applicazioni di calcolo scientifico e l'allenamento di reti neurali profonde, è delicato. In questo lavoro di tirocinio si studiano i modelli di fallimento per l'esecuzione di workflow complessi e i metodi allo stato dell'arte per rendere l'esecuzione tollerante ai guasti. Lo studio teorico è affiancato alla progettazione e alla implementazione di un sistema di esecuzione tollerante ai guasti per il Workflow Management System (WMS) “streamflow”, un nuovo concetto di WMS progettato all'università di Torino specificamente progettato per sistemi ibridi cloud-HPC. Il lavoro è supportato da verifica sperimentale effettuata su un prototipo di workflow programmato per fallire in diversi punti in modo casuale.
Esecuzione tollerante ai guasti di workflow in sistemi ibridi cloud-HPC
MULONE, ALBERTO
2019/2020
Abstract
Un processo può fallire in qualsiasi momento per molti e diversi motivi. In un sistema composto da molti processi, se non opportunamente progettato, un singolo processo può provocare il fallimento dell'intero sistema (single-point-of-failure). L'esecuzione di workflow su sistemi cloud-HPC (e multi-cloud) è particolarmente soggetta a fallimenti a causa della natura distribuita e fortemente asincrona della piattaforma di esecuzione. In queste condizioni l'esecuzione di applicazioni lunghe e complesse, come per esempio le applicazioni di calcolo scientifico e l'allenamento di reti neurali profonde, è delicato. In questo lavoro di tirocinio si studiano i modelli di fallimento per l'esecuzione di workflow complessi e i metodi allo stato dell'arte per rendere l'esecuzione tollerante ai guasti. Lo studio teorico è affiancato alla progettazione e alla implementazione di un sistema di esecuzione tollerante ai guasti per il Workflow Management System (WMS) “streamflow”, un nuovo concetto di WMS progettato all'università di Torino specificamente progettato per sistemi ibridi cloud-HPC. Il lavoro è supportato da verifica sperimentale effettuata su un prototipo di workflow programmato per fallire in diversi punti in modo casuale.File | Dimensione | Formato | |
---|---|---|---|
860057_tesitriennalemulone.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
901.15 kB
Formato
Adobe PDF
|
901.15 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/126958