Un processo può fallire in qualsiasi momento per molti e diversi motivi. In un sistema composto da molti processi, se non opportunamente progettato, un singolo processo può provocare il fallimento dell'intero sistema (single-point-of-failure). L'esecuzione di workflow su sistemi cloud-HPC (e multi-cloud) è particolarmente soggetta a fallimenti a causa della natura distribuita e fortemente asincrona della piattaforma di esecuzione. In queste condizioni l'esecuzione di applicazioni lunghe e complesse, come per esempio le applicazioni di calcolo scientifico e l'allenamento di reti neurali profonde, è delicato. In questo lavoro di tirocinio si studiano i modelli di fallimento per l'esecuzione di workflow complessi e i metodi allo stato dell'arte per rendere l'esecuzione tollerante ai guasti. Lo studio teorico è affiancato alla progettazione e alla implementazione di un sistema di esecuzione tollerante ai guasti per il Workflow Management System (WMS) “streamflow”, un nuovo concetto di WMS progettato all'università di Torino specificamente progettato per sistemi ibridi cloud-HPC. Il lavoro è supportato da verifica sperimentale effettuata su un prototipo di workflow programmato per fallire in diversi punti in modo casuale.

Esecuzione tollerante ai guasti di workflow in sistemi ibridi cloud-HPC

MULONE, ALBERTO
2019/2020

Abstract

Un processo può fallire in qualsiasi momento per molti e diversi motivi. In un sistema composto da molti processi, se non opportunamente progettato, un singolo processo può provocare il fallimento dell'intero sistema (single-point-of-failure). L'esecuzione di workflow su sistemi cloud-HPC (e multi-cloud) è particolarmente soggetta a fallimenti a causa della natura distribuita e fortemente asincrona della piattaforma di esecuzione. In queste condizioni l'esecuzione di applicazioni lunghe e complesse, come per esempio le applicazioni di calcolo scientifico e l'allenamento di reti neurali profonde, è delicato. In questo lavoro di tirocinio si studiano i modelli di fallimento per l'esecuzione di workflow complessi e i metodi allo stato dell'arte per rendere l'esecuzione tollerante ai guasti. Lo studio teorico è affiancato alla progettazione e alla implementazione di un sistema di esecuzione tollerante ai guasti per il Workflow Management System (WMS) “streamflow”, un nuovo concetto di WMS progettato all'università di Torino specificamente progettato per sistemi ibridi cloud-HPC. Il lavoro è supportato da verifica sperimentale effettuata su un prototipo di workflow programmato per fallire in diversi punti in modo casuale.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
860057_tesitriennalemulone.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 901.15 kB
Formato Adobe PDF
901.15 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/126958