This paper aims to make space forecasts relating to PM10 and NO2 pollutants in Piedmont considering the year of 2019, it is not considered the year of 2020 due to the restrictions due to Covid-19. Environmental pollution, including air pollution, is becoming a problem as it impacts human health by causing serious diseases, which is why the EU is issuing directives to try to limit concentrations. The member countries must undertake to comply with these directives by trying to limit the annual concentrations of pollutants, for this reason it is useful to carry out analyzes of this type. To carry out this analysis, various data provided by the Arpa Piemonte institute were used, but data from some public sites were also extracted. The information that is used regards the observed concentrations of pollutants from the various monitoring stations (57), the altidutine, data relating to the NDVI, data estimated from numerical models (farm), data relating to vehicular traffic (2015) and data on temporality as these types of pollutants are highly seasonal. These data come from different sources and have a different structure, they are managed by R software; a single dataset is then created which collects all this information. To unify all this information, a data fusion technique is used, in particular bilinear interpolation, for all data except for data relating to traffic volumes for which a buffer is used to capture the information and bring it back to the station point monitoring. In addition to a forecasting purpose, there is a purpose of comparison between different models, a classic geostatistics model such as the Kriging is used, which is the model typically used in environmental fields; this model is compared both with a Machine Learning (ML) model such as the Random Forest (RF) and with a statistical model such as the Genaralized Additive Model (GAM). These models are compared with different metrics, consistent with what has been seen in the literature, the metrics used are: MAE (mean absolute error), MSE (mean squared error), RMSE (root mean squared error), R ^ 2 and finally into account both the correlation between observed and predicted and the computational cost of each model. The ML model, like RF, is expected to predict well in these fields of application as it is capable of capturing any non-linearities that are not captured by the Kriging model. The RF model does not require a priori conjectures like the Kriging model (estimation of a space-time variogram to capture any correlations). The RF model can, however, maintain some interpretability by using its measure of the importance of variables. The results of this work show that the GAM model had the worst performance in predictive terms, but better in terms of computational cost, while the Kriging and RF models are equivalent, but with slightly better performance for RF; at the level of computational costs, Kriging is the model that has had the worst performance. As might be expected, temporality plays a key role in estimating these pollutants as they are highly seasonal by nature. One of the weaknesses of this report undoubtedly concerns the use of traffic volume data for the year 2015 and not for the reference year of 2019, due to the unavailability of the data for the year in question. This negatively influenced the forecasts of NO2 compared to those of PM10 as the first pollutant derives more from vehicular traffic. In conclusion, it is believed that RF can be considered a g
Questo elaborato si propone di effettuare delle previsioni in ambito spaziale relativi agli inquinanti del PM10 ed NO2 in Piemonte considerando l'anno del 2019, non viene considerato l'anno del 2020 per via delle restrizioni dovute al Covid-19. L'inquinamento ambientale, tra cui quello areo, sta diventando un problema in quanto impatta sulla salute dell'uomo causando gravi malattie, per questo motivo l'UE di sta emanando delle direttive per cercare di limitare le concentrazioni. I paesi membri devono impegnarsi a rispettare queste direttive cercando di limitare le concentrazioni annue degli inquinanti, per questa ragione risulta utile effettuare delle analisi di questo tipo. Per effettuare questa analisi sono stati utilizzati diversi dati forniti dall'istituito di Arpa Piemonte ma sono stati estratti anche dati da alcuni siti pubblici. Le informazioni che vengono usate riguardano le concentrazioni osservate degli inquinanti dalle diverse stazioni di monitoraggio (57), l'altidutine, dati relativi all'NDVI, dati stimati da modelli numerici (farm), dati relativi al traffico veicolare (del 2015) e dati sulla temporalità in quanto questi tipi di inquinanti sono altamente stagionali. Questi dati derivano da diverse fonti e hanno una struttura differente, essi vengono gestiti tramite il software di R; viene quindi creato un unico dataset il quale raccoglie tutte queste informazioni. Per unificare tutte queste informazioni viene utilizzata una tecnica di data fusion, in particolare l'interpolazione bilineare, per tutti i dati tranne che per i dati relativi ai volumi del traffico per il quale viene utilizzato un buffer per catturare le informazioni riportandole al punto della stazione di monitoraggio. Oltre che uno scopo previsionale, vi è uno scopo di confronto tra diversi modelli, viene utilizzato un modello di geostatistica classico quale il Kriging, che è il modello tipicamente utilizzato in ambiti ambientali; questo modello viene confrontato sia con un modello di Machine Learning (ML) quale il Random Forest (RF) che con un modello statistico quale il Genaralized Additive Model (GAM). Questi modelli vengono confrontati con diverse metriche, coerenti con quanto visto nella letteratura, le metriche utilizzate sono: MAE (mean absolute error), MSE (mean squared error), RMSE (root mean squared error), R^2 ed infine si tiene anche conto sia della correlazione tra osservato e previsto che del costo computazionale di ogni modello. Ci si aspetta che il modello ML, come l'RF, preveda bene in questi campi di applicazione in quanto è in grado di catturare eventuali non linearità che non sono catturate dal modello Kriging. Il modello RF non richiede congetture a priori come accade per il modello Kriging (stima di un variogramma spazio-temporale per catturare eventuali correlazioni). Il modello RF può tuttavia mantenere una certa interpretabilità utilizzando la sua misura dell'importanza delle variabili. I risultati di questo lavoro mostrano come il modello GAM abbia avuto le peggiori prestazioni in termini predittivi, ma migliori in termini di costo computazionale, mentre i modelli Kriging e RF sono equivalenti, ma con prestazioni leggermente migliori per l'RF; a livello di costi computazionali, Kriging è il modello che ha avuto le peggiori performance. Come ci si poteva aspettare, la temporalità gioca un ruolo fondamentale nella stima di questi inquinanti in quanto sono altamente stagionali per loro natura. Uno dei punti deboli di questo rapporto rigua
Modelli predittivi per la concentrazione di inquinanti atmosferici in Piemonte
BAUCCIO, CHIARA
2020/2021
Abstract
Questo elaborato si propone di effettuare delle previsioni in ambito spaziale relativi agli inquinanti del PM10 ed NO2 in Piemonte considerando l'anno del 2019, non viene considerato l'anno del 2020 per via delle restrizioni dovute al Covid-19. L'inquinamento ambientale, tra cui quello areo, sta diventando un problema in quanto impatta sulla salute dell'uomo causando gravi malattie, per questo motivo l'UE di sta emanando delle direttive per cercare di limitare le concentrazioni. I paesi membri devono impegnarsi a rispettare queste direttive cercando di limitare le concentrazioni annue degli inquinanti, per questa ragione risulta utile effettuare delle analisi di questo tipo. Per effettuare questa analisi sono stati utilizzati diversi dati forniti dall'istituito di Arpa Piemonte ma sono stati estratti anche dati da alcuni siti pubblici. Le informazioni che vengono usate riguardano le concentrazioni osservate degli inquinanti dalle diverse stazioni di monitoraggio (57), l'altidutine, dati relativi all'NDVI, dati stimati da modelli numerici (farm), dati relativi al traffico veicolare (del 2015) e dati sulla temporalità in quanto questi tipi di inquinanti sono altamente stagionali. Questi dati derivano da diverse fonti e hanno una struttura differente, essi vengono gestiti tramite il software di R; viene quindi creato un unico dataset il quale raccoglie tutte queste informazioni. Per unificare tutte queste informazioni viene utilizzata una tecnica di data fusion, in particolare l'interpolazione bilineare, per tutti i dati tranne che per i dati relativi ai volumi del traffico per il quale viene utilizzato un buffer per catturare le informazioni riportandole al punto della stazione di monitoraggio. Oltre che uno scopo previsionale, vi è uno scopo di confronto tra diversi modelli, viene utilizzato un modello di geostatistica classico quale il Kriging, che è il modello tipicamente utilizzato in ambiti ambientali; questo modello viene confrontato sia con un modello di Machine Learning (ML) quale il Random Forest (RF) che con un modello statistico quale il Genaralized Additive Model (GAM). Questi modelli vengono confrontati con diverse metriche, coerenti con quanto visto nella letteratura, le metriche utilizzate sono: MAE (mean absolute error), MSE (mean squared error), RMSE (root mean squared error), R^2 ed infine si tiene anche conto sia della correlazione tra osservato e previsto che del costo computazionale di ogni modello. Ci si aspetta che il modello ML, come l'RF, preveda bene in questi campi di applicazione in quanto è in grado di catturare eventuali non linearità che non sono catturate dal modello Kriging. Il modello RF non richiede congetture a priori come accade per il modello Kriging (stima di un variogramma spazio-temporale per catturare eventuali correlazioni). Il modello RF può tuttavia mantenere una certa interpretabilità utilizzando la sua misura dell'importanza delle variabili. I risultati di questo lavoro mostrano come il modello GAM abbia avuto le peggiori prestazioni in termini predittivi, ma migliori in termini di costo computazionale, mentre i modelli Kriging e RF sono equivalenti, ma con prestazioni leggermente migliori per l'RF; a livello di costi computazionali, Kriging è il modello che ha avuto le peggiori performance. Come ci si poteva aspettare, la temporalità gioca un ruolo fondamentale nella stima di questi inquinanti in quanto sono altamente stagionali per loro natura. Uno dei punti deboli di questo rapporto riguaFile | Dimensione | Formato | |
---|---|---|---|
837839_tesi_bauccio_837839.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
4.11 MB
Formato
Adobe PDF
|
4.11 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/82524