Studio e implementazione di tecniche di Deep Reinforcement Learning

Questa tesi si propone di approfondire il Reinforcement Learning, una particolare tecnica di Machine Learning che negli ultimi anni è stata oggetto di diversi studi e che ha trovato applicazione in molti campi della ricerca e in molti aspetti della realtà quotidiana. In particolare, questa tesi vuole confrontare due algoritmi appartenenti allo stato dell’arte della ricerca attuale: Double Deep Q Networks (DDQN) e Proximal Policy Optimization (PPO). Prendendo ispirazione dai recenti progressi di AlphaGo Zero e AlphaZero, noti programmi di Intelligenza Artificiale appartenenti al mondo scacchistico, e avendo particolare interesse all’applicazione del Reinforcement Learning nell’ambito dei giochi, questi due algoritmi sono stati utilizzati per addestrare una rete neurale convoluzionale a risolvere alcuni livelli del gioco Super Mario Bros della Nintendo Entertainment System (NES): ciò è stato possibile grazie all’utilizzo dell’emulatore Python per i giochi della NES, sfruttando l’ambiente gym-super-mario-bros fornito da OpenAI Gym. Gli algoritmi apprendono una politica (policy) in modo end-to-end, ovvero partendo dai frame del videogioco DDQN e PPO imparano a restituire l’azione che massimizza il guadagno (reward) dell’agente. A seguito delle simulazioni, sono quindi stati raccolti i dati necessari per effettuare un’analisi e un confronto tra DDQN e PPO, valutandone le prestazioni su diversi aspetti, tra cui il tempo di esecuzione, l’occupazione della memoria e il numero di livelli completati con successo.

Studio e implementazione di tecniche di Deep Reinforcement Learning

MONTESI, DENNIS

2022/2023

Abstract

Questa tesi si propone di approfondire il Reinforcement Learning, una particolare tecnica di Machine Learning che negli ultimi anni è stata oggetto di diversi studi e che ha trovato applicazione in molti campi della ricerca e in molti aspetti della realtà quotidiana. In particolare, questa tesi vuole confrontare due algoritmi appartenenti allo stato dell’arte della ricerca attuale: Double Deep Q Networks (DDQN) e Proximal Policy Optimization (PPO). Prendendo ispirazione dai recenti progressi di AlphaGo Zero e AlphaZero, noti programmi di Intelligenza Artificiale appartenenti al mondo scacchistico, e avendo particolare interesse all’applicazione del Reinforcement Learning nell’ambito dei giochi, questi due algoritmi sono stati utilizzati per addestrare una rete neurale convoluzionale a risolvere alcuni livelli del gioco Super Mario Bros della Nintendo Entertainment System (NES): ciò è stato possibile grazie all’utilizzo dell’emulatore Python per i giochi della NES, sfruttando l’ambiente gym-super-mario-bros fornito da OpenAI Gym. Gli algoritmi apprendono una politica (policy) in modo end-to-end, ovvero partendo dai frame del videogioco DDQN e PPO imparano a restituire l’azione che massimizza il guadagno (reward) dell’agente. A seguito delle simulazioni, sono quindi stati raccolti i dati necessari per effettuare un’analisi e un confronto tra DDQN e PPO, valutandone le prestazioni su diversi aspetti, tra cui il tempo di esecuzione, l’occupazione della memoria e il numero di livelli completati con successo.

Scheda breve

	Facoltà/Dipartimento
	
				INFORMATICA
			
	Corso di studio
	
				INFORMATICA
			
	Lingua
	
				ITA
			
	Relatrice / Relatore
	
				POLATO, Mirko
			
	Modalità consultazione tesi
	
				IMPORT DA TESIONLINE
			
	Appare nelle tipologie:
	
				Corso di Laurea

File in questo prodotto:

File	Dimensione	Formato
946326_tesi_montesi_dennis.pdf non disponibili Tipologia: Altro materiale allegato Dimensione 2.18 MB Formato Adobe PDF	2.18 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/106974