La Cluster Analysis ?è un insieme di tecniche di analisi del Data Mining che consentono di suddividere le osservazioni in determinati gruppi. L'elaborato presenta un confronto tra due tecniche di clustering: il metodo delle K-means e il metodo delle C-means. Il primo appartiene alla Cluster Analysis classica, l'altro segue la logica del Fuzzy custering. Entrambi i metodi sono parametrici e suddividono la popolazione in un numero di gruppi scelto a priori. In particolare, con il metodo delle K-means si suddividono le osservazioni casualmente e, successivamente, una alla volta vengono spostate nel gruppo con il centroide pi?ù vicino. Tale metodo risulta, quindi, molto utile quando si lavora con dati distintamente separabili. Con il metodo delle C-means, invece, non si assegnano univocamente le osservazioni ad un solo cluster, bensì? ?a tutti i gruppi con diversi gradi di appartenenza. L'applicazione di questi metodi ?è stata effettuata su un set di dati preso dal sito della Banca Mondiale. Le variabili su cui si? è concentrata l'analisi sono quelle legate alle emissioni di CO2. L'intento ?è stato quello di veri?ficare se siano stati rispettati gli obiettivi imposti dal Protocollo di Kyoto e di scoprire i paesi con comportamenti analoghi rispetto all'andamento delle emissioni dal 1990 al 2011.
Fuzzy clustering e Data Mining: un'applicazione
COSTOLI, MATTEO
2015/2016
Abstract
La Cluster Analysis ?è un insieme di tecniche di analisi del Data Mining che consentono di suddividere le osservazioni in determinati gruppi. L'elaborato presenta un confronto tra due tecniche di clustering: il metodo delle K-means e il metodo delle C-means. Il primo appartiene alla Cluster Analysis classica, l'altro segue la logica del Fuzzy custering. Entrambi i metodi sono parametrici e suddividono la popolazione in un numero di gruppi scelto a priori. In particolare, con il metodo delle K-means si suddividono le osservazioni casualmente e, successivamente, una alla volta vengono spostate nel gruppo con il centroide pi?ù vicino. Tale metodo risulta, quindi, molto utile quando si lavora con dati distintamente separabili. Con il metodo delle C-means, invece, non si assegnano univocamente le osservazioni ad un solo cluster, bensì? ?a tutti i gruppi con diversi gradi di appartenenza. L'applicazione di questi metodi ?è stata effettuata su un set di dati preso dal sito della Banca Mondiale. Le variabili su cui si? è concentrata l'analisi sono quelle legate alle emissioni di CO2. L'intento ?è stato quello di veri?ficare se siano stati rispettati gli obiettivi imposti dal Protocollo di Kyoto e di scoprire i paesi con comportamenti analoghi rispetto all'andamento delle emissioni dal 1990 al 2011.File | Dimensione | Formato | |
---|---|---|---|
781139_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
954.2 kB
Formato
Adobe PDF
|
954.2 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/22798