The thesis focuses on the study of Functional Clustering, analyzing its challenges and various approaches. Specifically, it discusses the model-based approach, developing a model for multidimensional functional data, where each subject has multiple associated curves. The main challenge addressed in the thesis was to find a model that could consider the different curves of a subject while maintaining the correlation among them during analysis. To achieve this, an existing model-based approach was extended by approximating these curves using B-splines, followed by clustering subjects based on the B-spline coefficients using an EM cycle. During the extension, various aspects of the problem were tackled, such as constructing an appropriate basis for the approximation and defining parameters to prevent the loss of information that links the different curves. Subsequently, an R code was implemented to perform multidimensional Functional Clustering. The code is divided into four main parts: initialization, where all necessary objects and the basis are constructed; the EM cycle for parameter estimation; a section for predicting curves and cluster membership; and finally, a part for the graphical visualization of the results.

La tesi riguarda lo studio del Functional Clustering, analizzandone le problematiche e i diversi approcci. Nello specifico, nella tesi viene trattato l’approccio model-based, sviluppandone un modello anche per dati funzionali multidimensionali, ovvero ogni soggetto analizzato ha più curve ad esso associate. La principale sfida nella tesi è stata trovare un modello che permettesse di considerare le differenti curve del soggetto senza perderne la correlazione fra esse durante l’analisi. Per far ciò, si è esteso un modello già esistente di model based basato sull’approssimazione di queste curve tramite le B-spline e successivamente la clusterizzazione dei soggetti tramite i coefficienti della base di B-spline, usando un EM cycle. Durante l’estensione sono stati affrontati differenti aspetti del problema, come la costruzione di una base adeguata per svolgere l’approssimazione e la definizione dei parametri per evitare di perdere le informazioni che legano le differenti curve. Successivamente è stato implementato un codice R per svolgere il Functional Clustering multidimensionale. Il codice è suddiviso in quattro parti principali: l’inizializzazione dove vengono costruiti tutti gli oggetti e la base necessaria, il ciclo EM che serve per stimare i parametri, una parte di predizione di curve e di appartenenza al cluster e in fine una parte per la visualizzazione grafica dei risultati.

Functional Clustering: the multidimensional case

MEGALE, EUGENIO
2023/2024

Abstract

La tesi riguarda lo studio del Functional Clustering, analizzandone le problematiche e i diversi approcci. Nello specifico, nella tesi viene trattato l’approccio model-based, sviluppandone un modello anche per dati funzionali multidimensionali, ovvero ogni soggetto analizzato ha più curve ad esso associate. La principale sfida nella tesi è stata trovare un modello che permettesse di considerare le differenti curve del soggetto senza perderne la correlazione fra esse durante l’analisi. Per far ciò, si è esteso un modello già esistente di model based basato sull’approssimazione di queste curve tramite le B-spline e successivamente la clusterizzazione dei soggetti tramite i coefficienti della base di B-spline, usando un EM cycle. Durante l’estensione sono stati affrontati differenti aspetti del problema, come la costruzione di una base adeguata per svolgere l’approssimazione e la definizione dei parametri per evitare di perdere le informazioni che legano le differenti curve. Successivamente è stato implementato un codice R per svolgere il Functional Clustering multidimensionale. Il codice è suddiviso in quattro parti principali: l’inizializzazione dove vengono costruiti tutti gli oggetti e la base necessaria, il ciclo EM che serve per stimare i parametri, una parte di predizione di curve e di appartenenza al cluster e in fine una parte per la visualizzazione grafica dei risultati.
Functional Clustering: the multidimensional case
The thesis focuses on the study of Functional Clustering, analyzing its challenges and various approaches. Specifically, it discusses the model-based approach, developing a model for multidimensional functional data, where each subject has multiple associated curves. The main challenge addressed in the thesis was to find a model that could consider the different curves of a subject while maintaining the correlation among them during analysis. To achieve this, an existing model-based approach was extended by approximating these curves using B-splines, followed by clustering subjects based on the B-spline coefficients using an EM cycle. During the extension, various aspects of the problem were tackled, such as constructing an appropriate basis for the approximation and defining parameters to prevent the loss of information that links the different curves. Subsequently, an R code was implemented to perform multidimensional Functional Clustering. The code is divided into four main parts: initialization, where all necessary objects and the basis are constructed; the EM cycle for parameter estimation; a section for predicting curves and cluster membership; and finally, a part for the graphical visualization of the results.
Autorizzo consultazione esterna dell'elaborato
File in questo prodotto:
File Dimensione Formato  
Tesi Magistrale Eugenio Megale.pdf

non disponibili

Dimensione 2.18 MB
Formato Adobe PDF
2.18 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/9451