Il lavoro ha lo scopo di analizzare e valutare diversi approcci rivolti all'analisi di tavole di contingenza multidimensionali, costituite esclusivamente da variabili di tipo categorico, cercando di descrivere e spiegare potenziali forme di associazione tra le variabili prese in considerazione. Il primo strumento considerato è il modello log-lineare, metodo utilizzato quando si è in presenza di un vasto numero di variabili e di forme si associazione tra esse indefinite. Questo particolare modello, pone le variabili esplicative sullo stesso piano e modella le frequenze delle celle come variabile risposta. Si è poi proceduto al confronto tra modello log-lineare e modello logistico in particolari casistiche in cui essi risultano equivalenti per poi sviluppare e concludere l'analisi con un approccio più moderno riguardo le tavole di contingenza: l'analisi di classi latenti. Questo particolare metodo assume la presenza di una variabile latente grazie alla quale le variabili manifeste, condizionate ad essa, risultano indipendenti. I dati a disposizione, su cui è stata condotta l'analisi, fanno riferimento alla popolazione Californiana dell'anno 2000, il dataset utilizzato è un derivato del censimento Californiano (5%). L'analisi condotta sul nostro dataset di interesse è stata sviluppata con il linguaggio R, che al suo interno permette di implementare diversi pacchetti di funzioni (librerie) in base all'analisi che si vuole affrontare.

Analisi di dati categorici in riferimento al censimento Californiano

BAUDINO, ELIA
2017/2018

Abstract

Il lavoro ha lo scopo di analizzare e valutare diversi approcci rivolti all'analisi di tavole di contingenza multidimensionali, costituite esclusivamente da variabili di tipo categorico, cercando di descrivere e spiegare potenziali forme di associazione tra le variabili prese in considerazione. Il primo strumento considerato è il modello log-lineare, metodo utilizzato quando si è in presenza di un vasto numero di variabili e di forme si associazione tra esse indefinite. Questo particolare modello, pone le variabili esplicative sullo stesso piano e modella le frequenze delle celle come variabile risposta. Si è poi proceduto al confronto tra modello log-lineare e modello logistico in particolari casistiche in cui essi risultano equivalenti per poi sviluppare e concludere l'analisi con un approccio più moderno riguardo le tavole di contingenza: l'analisi di classi latenti. Questo particolare metodo assume la presenza di una variabile latente grazie alla quale le variabili manifeste, condizionate ad essa, risultano indipendenti. I dati a disposizione, su cui è stata condotta l'analisi, fanno riferimento alla popolazione Californiana dell'anno 2000, il dataset utilizzato è un derivato del censimento Californiano (5%). L'analisi condotta sul nostro dataset di interesse è stata sviluppata con il linguaggio R, che al suo interno permette di implementare diversi pacchetti di funzioni (librerie) in base all'analisi che si vuole affrontare.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
814014_tesifinale.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.74 MB
Formato Adobe PDF
1.74 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/94571