Computational Chemistry is a fundamental component of modern chemistry, thanks to the use of calculation programs appropriately developed that consent to obtain the shape and the energy of a molecule’s orbitals, as well as to foresee the structure and reactivity of compounds of chemical, pharmaceutical and engineering interest: it is easy then imagine how its importance resides in the great contribution supplied to the experimental dimension in various research and development areas. Among the most promising challenges in this scope there is the implementation of cited programs for computational calculation using Artificial Intelligence algorithms, called Machine Learning in the specific context we are dealing with. The research area mentioned above was under a strong propulsive boost within the last two decades towards the development of alternative solutions, which consent to exploit cognitive abilities of a well-trained machine to speed up calculations’ times, foresee excited states from the fundamental one or supply support in drug design techniques. This Master’s Degree thesis purpose is to explore the use of ML algorithms in a single-point calculation to try to speed up a SCF cycle’s convergence with the prediction of the density matrix. For this aim it has been necessary to build the calculation program first, to have a punctual knowledge of it and therefore be able to easily individuate the algorithm’s introduction point: this was accomplished by using the programming environment Spider available in the open-source packages’ collection Anaconda Navigator, one of the most used data science platforms worldwide. Specifically, the codified program uses Hartree-Fock formalism and is set to execute the fundamental energy calculation for closed-shell molecules. After its codification our program, called RHFC (Restricted Hartree-Fock Calculator) for briefness, was validated thanks to confrontation with a database of calculated energies of molecules such as H2O, H2 and so many others. Having obtained satisfying results, we proceeded with the research of the best-suiting algorithm for the prefixed aim by using the existing literature about this topic: the choice fell on the Scikit-Learn library containing the so-called Gaussian Process algorithms we judged to be suitable for our objective. To supply a complete panoramic of the briefly introduced topics, this script will be articulated in the following way: the first chapter will describe Hartree-Fock formalism and its details, whereas the second one will be of bibliographic nature and will be dedicated to Machine Learning principles and its use in Computational Chemistry state of art. The last two chapters will be related to the experimental part instead: the third will describe the original code, for the reader to have a detailed comprehension of what has been done, also showing a selection of the validation results; the fourth and last chapter will be about the program implementation through the algorithm training and application to our case, including the data obtained.

La Chimica Computazionale è una componente fondamentale della chimica moderna, grazie all’utilizzo di programmi di calcolo opportunamente sviluppati che consentono di ottenere la forma e l’energia degli orbitali e di prevedere la struttura e la reattività di composti di interesse chimico, farmaceutico e ingegneristico: è facile intuire come la sua importanza risieda nel non indifferente contributo fornito alla dimensione sperimentale. Tra le più promettenti sfide in tale ambito si annovera l’implementazione di programmi per il calcolo computazionale mediante l’utilizzo di algoritmi di Intelligenza Artificiale, denominata Machine Learning nello specifico ambito preso in esame. Tale area di ricerca è stata protagonista di una forte spinta propulsiva verso lo sviluppo di soluzioni alternative che consentano di sfruttare le capacità cognitive di una macchina opportunamente addestrata per velocizzare i tempi di calcolo o predire stati eccitati a partire dallo stato fondamentale. Questa tesi magistrale si propone di esplorare l’utilizzo dei suddetti algoritmi all’interno di un calcolo a punto singolo, con l’intento di velocizzare la convergenza mediante predizione della matrice densità. A tale scopo si è reso necessario costruire il programma di calcolo, in modo da averne una conoscenza puntuale ed approfondita che consentisse una facile individuazione al suo interno del punto di introduzione dell’algoritmo: l’obiettivo è stato raggiunto utilizzando l’environment di programmazione Spider contenuto nella raccolta di pacchetti open source Anaconda Navigator, una delle piattaforme per il Data Science più utilizzate al mondo. Specificamente, il programma codificato per i nostri scopi utilizza il formalismo di Hartree-Fock ed è impostato per eseguire il calcolo dell’energia dello stato fondamentale di molecole closed shell, nelle quali cioè ciascun orbitale è doppiamente occupato. Successivamente alla sua codifica il nostro programma, che chiameremo RHFC (Restricted Hartree-Fock Calculator), è stato validato mediante confronto con un database delle energie calcolate di molecole come H2O, H2, e tante altre. Avendo ottenuto risultati soddisfacenti, si è quindi proceduto alla ricerca dell’algoritmo che più fosse in grado di soddisfare l’obiettivo prefissato, affidandosi alla letteratura esistente in proposito. La scelta è infine ricaduta sull’utilizzo della libreria Scikit-learn, contenente algoritmi chiamati Gaussian Process che sono stati ritenuti ideali per i nostri scopi. Volendo dare una panoramica completa degli argomenti qui brevemente introdotti, articoleremo nel seguente modo tale scritto: il primo capitolo tratterà in modo dettagliato il formalismo di Hartree-Fock, mentre il secondo sarà di natura bibliografica e avrà lo scopo di illustrare i principi su cui il Machine Learning è fondato e lo stato dell’arte dell’utilizzo dei suoi algoritmi in chimica computazionale. Gli ultimi due capitoli saranno invece volti alla descrizione della parte sperimentale: il terzo conterrà il codice originale completo di didascalie descrittive che consentano una comprensione dettagliata da parte del lettore e una selezione dei calcoli svolti a scopo validativo; il quarto e ultimo capitolo illustrerà come l’algoritmo Machine Learning scelto sia stato addestrato e applicato al nostro caso particolare, corredando nuovamente tale descrizione di didascalie esplicative e relativi dati ottenuti.

Chimica Computazionale e Machine Learning: un ponte tra due mondi

BASSETTA, SARA
2021/2022

Abstract

La Chimica Computazionale è una componente fondamentale della chimica moderna, grazie all’utilizzo di programmi di calcolo opportunamente sviluppati che consentono di ottenere la forma e l’energia degli orbitali e di prevedere la struttura e la reattività di composti di interesse chimico, farmaceutico e ingegneristico: è facile intuire come la sua importanza risieda nel non indifferente contributo fornito alla dimensione sperimentale. Tra le più promettenti sfide in tale ambito si annovera l’implementazione di programmi per il calcolo computazionale mediante l’utilizzo di algoritmi di Intelligenza Artificiale, denominata Machine Learning nello specifico ambito preso in esame. Tale area di ricerca è stata protagonista di una forte spinta propulsiva verso lo sviluppo di soluzioni alternative che consentano di sfruttare le capacità cognitive di una macchina opportunamente addestrata per velocizzare i tempi di calcolo o predire stati eccitati a partire dallo stato fondamentale. Questa tesi magistrale si propone di esplorare l’utilizzo dei suddetti algoritmi all’interno di un calcolo a punto singolo, con l’intento di velocizzare la convergenza mediante predizione della matrice densità. A tale scopo si è reso necessario costruire il programma di calcolo, in modo da averne una conoscenza puntuale ed approfondita che consentisse una facile individuazione al suo interno del punto di introduzione dell’algoritmo: l’obiettivo è stato raggiunto utilizzando l’environment di programmazione Spider contenuto nella raccolta di pacchetti open source Anaconda Navigator, una delle piattaforme per il Data Science più utilizzate al mondo. Specificamente, il programma codificato per i nostri scopi utilizza il formalismo di Hartree-Fock ed è impostato per eseguire il calcolo dell’energia dello stato fondamentale di molecole closed shell, nelle quali cioè ciascun orbitale è doppiamente occupato. Successivamente alla sua codifica il nostro programma, che chiameremo RHFC (Restricted Hartree-Fock Calculator), è stato validato mediante confronto con un database delle energie calcolate di molecole come H2O, H2, e tante altre. Avendo ottenuto risultati soddisfacenti, si è quindi proceduto alla ricerca dell’algoritmo che più fosse in grado di soddisfare l’obiettivo prefissato, affidandosi alla letteratura esistente in proposito. La scelta è infine ricaduta sull’utilizzo della libreria Scikit-learn, contenente algoritmi chiamati Gaussian Process che sono stati ritenuti ideali per i nostri scopi. Volendo dare una panoramica completa degli argomenti qui brevemente introdotti, articoleremo nel seguente modo tale scritto: il primo capitolo tratterà in modo dettagliato il formalismo di Hartree-Fock, mentre il secondo sarà di natura bibliografica e avrà lo scopo di illustrare i principi su cui il Machine Learning è fondato e lo stato dell’arte dell’utilizzo dei suoi algoritmi in chimica computazionale. Gli ultimi due capitoli saranno invece volti alla descrizione della parte sperimentale: il terzo conterrà il codice originale completo di didascalie descrittive che consentano una comprensione dettagliata da parte del lettore e una selezione dei calcoli svolti a scopo validativo; il quarto e ultimo capitolo illustrerà come l’algoritmo Machine Learning scelto sia stato addestrato e applicato al nostro caso particolare, corredando nuovamente tale descrizione di didascalie esplicative e relativi dati ottenuti.
ITA
Computational Chemistry is a fundamental component of modern chemistry, thanks to the use of calculation programs appropriately developed that consent to obtain the shape and the energy of a molecule’s orbitals, as well as to foresee the structure and reactivity of compounds of chemical, pharmaceutical and engineering interest: it is easy then imagine how its importance resides in the great contribution supplied to the experimental dimension in various research and development areas. Among the most promising challenges in this scope there is the implementation of cited programs for computational calculation using Artificial Intelligence algorithms, called Machine Learning in the specific context we are dealing with. The research area mentioned above was under a strong propulsive boost within the last two decades towards the development of alternative solutions, which consent to exploit cognitive abilities of a well-trained machine to speed up calculations’ times, foresee excited states from the fundamental one or supply support in drug design techniques. This Master’s Degree thesis purpose is to explore the use of ML algorithms in a single-point calculation to try to speed up a SCF cycle’s convergence with the prediction of the density matrix. For this aim it has been necessary to build the calculation program first, to have a punctual knowledge of it and therefore be able to easily individuate the algorithm’s introduction point: this was accomplished by using the programming environment Spider available in the open-source packages’ collection Anaconda Navigator, one of the most used data science platforms worldwide. Specifically, the codified program uses Hartree-Fock formalism and is set to execute the fundamental energy calculation for closed-shell molecules. After its codification our program, called RHFC (Restricted Hartree-Fock Calculator) for briefness, was validated thanks to confrontation with a database of calculated energies of molecules such as H2O, H2 and so many others. Having obtained satisfying results, we proceeded with the research of the best-suiting algorithm for the prefixed aim by using the existing literature about this topic: the choice fell on the Scikit-Learn library containing the so-called Gaussian Process algorithms we judged to be suitable for our objective. To supply a complete panoramic of the briefly introduced topics, this script will be articulated in the following way: the first chapter will describe Hartree-Fock formalism and its details, whereas the second one will be of bibliographic nature and will be dedicated to Machine Learning principles and its use in Computational Chemistry state of art. The last two chapters will be related to the experimental part instead: the third will describe the original code, for the reader to have a detailed comprehension of what has been done, also showing a selection of the validation results; the fourth and last chapter will be about the program implementation through the algorithm training and application to our case, including the data obtained.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
859390_tesi_bassetta.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.12 MB
Formato Adobe PDF
1.12 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/55968