Questa tesi si propone di approfondire il Reinforcement Learning, una particolare tecnica di Machine Learning che negli ultimi anni è stata oggetto di diversi studi e che ha trovato applicazione in molti campi della ricerca e in molti aspetti della realtà quotidiana. In particolare, questa tesi vuole confrontare due algoritmi appartenenti allo stato dell’arte della ricerca attuale: Double Deep Q Networks (DDQN) e Proximal Policy Optimization (PPO). Prendendo ispirazione dai recenti progressi di AlphaGo Zero e AlphaZero, noti programmi di Intelligenza Artificiale appartenenti al mondo scacchistico, e avendo particolare interesse all’applicazione del Reinforcement Learning nell’ambito dei giochi, questi due algoritmi sono stati utilizzati per addestrare una rete neurale convoluzionale a risolvere alcuni livelli del gioco Super Mario Bros della Nintendo Entertainment System (NES): ciò è stato possibile grazie all’utilizzo dell’emulatore Python per i giochi della NES, sfruttando l’ambiente gym-super-mario-bros fornito da OpenAI Gym. Gli algoritmi apprendono una politica (policy) in modo end-to-end, ovvero partendo dai frame del videogioco DDQN e PPO imparano a restituire l’azione che massimizza il guadagno (reward) dell’agente. A seguito delle simulazioni, sono quindi stati raccolti i dati necessari per effettuare un’analisi e un confronto tra DDQN e PPO, valutandone le prestazioni su diversi aspetti, tra cui il tempo di esecuzione, l’occupazione della memoria e il numero di livelli completati con successo.
Studio e implementazione di tecniche di Deep Reinforcement Learning
MONTESI, DENNIS
2022/2023
Abstract
Questa tesi si propone di approfondire il Reinforcement Learning, una particolare tecnica di Machine Learning che negli ultimi anni è stata oggetto di diversi studi e che ha trovato applicazione in molti campi della ricerca e in molti aspetti della realtà quotidiana. In particolare, questa tesi vuole confrontare due algoritmi appartenenti allo stato dell’arte della ricerca attuale: Double Deep Q Networks (DDQN) e Proximal Policy Optimization (PPO). Prendendo ispirazione dai recenti progressi di AlphaGo Zero e AlphaZero, noti programmi di Intelligenza Artificiale appartenenti al mondo scacchistico, e avendo particolare interesse all’applicazione del Reinforcement Learning nell’ambito dei giochi, questi due algoritmi sono stati utilizzati per addestrare una rete neurale convoluzionale a risolvere alcuni livelli del gioco Super Mario Bros della Nintendo Entertainment System (NES): ciò è stato possibile grazie all’utilizzo dell’emulatore Python per i giochi della NES, sfruttando l’ambiente gym-super-mario-bros fornito da OpenAI Gym. Gli algoritmi apprendono una politica (policy) in modo end-to-end, ovvero partendo dai frame del videogioco DDQN e PPO imparano a restituire l’azione che massimizza il guadagno (reward) dell’agente. A seguito delle simulazioni, sono quindi stati raccolti i dati necessari per effettuare un’analisi e un confronto tra DDQN e PPO, valutandone le prestazioni su diversi aspetti, tra cui il tempo di esecuzione, l’occupazione della memoria e il numero di livelli completati con successo.File | Dimensione | Formato | |
---|---|---|---|
946326_tesi_montesi_dennis.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
2.18 MB
Formato
Adobe PDF
|
2.18 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/106974