The essay deals with the comparison between two categories of multiple imputation models, the joint specification and the fully conditional specification models, using a single model for each one of the two categories. The purpose of these models is to generate plausible values according to statistical theory that are meant to replace missing values inside datasets, in order to improve the quality of analysis performed on said data. After an exhaustive exposition of the theory behind both models, the empirical comparison is performed using one model for each category, and the efficacy of both in mitigating the missing data issue is tested. To achieve that, a freely available online dataset will be used, and its data artificially masked so that it can be compared to the original dataset.
La tesi verterà sul confronto fra due categorie di modelli a imputazione multipla, quelli a specificazione congiunta e quelli a specificazione pienamente condizionale, utilizzando un modello per ciascuna delle due categorie. Lo scopo di questi modelli è quello di generare valori plausibili secondo la teoria statistica per sostituire valori mancanti all'interno di set di dati, in modo tale da migliorare la qualità delle analisi svolte sui dati in questione. Dopo un'esaustiva esposizione teorica del funzionamento di entrambi, il confronto empirico avverrà utilizzando un modello per ciascuna categoria, e verrà testata l'efficacia di entrambi nel sopperire al problema dei dati mancanti all'interno di un set di dati. A tal scopo si utilizzerà un dataset liberamente disponibile su Internet, con dati mascherati artificialmente per poterli confrontare con gli originali.
Imputazione multipla a specificazione congiunta o condizionale: un confronto empirico
PASTERO, DIEGO
2019/2020
Abstract
La tesi verterà sul confronto fra due categorie di modelli a imputazione multipla, quelli a specificazione congiunta e quelli a specificazione pienamente condizionale, utilizzando un modello per ciascuna delle due categorie. Lo scopo di questi modelli è quello di generare valori plausibili secondo la teoria statistica per sostituire valori mancanti all'interno di set di dati, in modo tale da migliorare la qualità delle analisi svolte sui dati in questione. Dopo un'esaustiva esposizione teorica del funzionamento di entrambi, il confronto empirico avverrà utilizzando un modello per ciascuna categoria, e verrà testata l'efficacia di entrambi nel sopperire al problema dei dati mancanti all'interno di un set di dati. A tal scopo si utilizzerà un dataset liberamente disponibile su Internet, con dati mascherati artificialmente per poterli confrontare con gli originali.File | Dimensione | Formato | |
---|---|---|---|
795653_tesi_pasterodiego.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
2.68 MB
Formato
Adobe PDF
|
2.68 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/156483