La Cluster Analysis ?è un insieme di tecniche di analisi del Data Mining che consentono di suddividere le osservazioni in determinati gruppi. L'elaborato presenta un confronto tra due tecniche di clustering: il metodo delle K-means e il metodo delle C-means. Il primo appartiene alla Cluster Analysis classica, l'altro segue la logica del Fuzzy custering. Entrambi i metodi sono parametrici e suddividono la popolazione in un numero di gruppi scelto a priori. In particolare, con il metodo delle K-means si suddividono le osservazioni casualmente e, successivamente, una alla volta vengono spostate nel gruppo con il centroide pi?ù vicino. Tale metodo risulta, quindi, molto utile quando si lavora con dati distintamente separabili. Con il metodo delle C-means, invece, non si assegnano univocamente le osservazioni ad un solo cluster, bensì? ?a tutti i gruppi con diversi gradi di appartenenza. L'applicazione di questi metodi ?è stata effettuata su un set di dati preso dal sito della Banca Mondiale. Le variabili su cui si? è concentrata l'analisi sono quelle legate alle emissioni di CO2. L'intento ?è stato quello di veri?ficare se siano stati rispettati gli obiettivi imposti dal Protocollo di Kyoto e di scoprire i paesi con comportamenti analoghi rispetto all'andamento delle emissioni dal 1990 al 2011.

Fuzzy clustering e Data Mining: un'applicazione

COSTOLI, MATTEO
2015/2016

Abstract

La Cluster Analysis ?è un insieme di tecniche di analisi del Data Mining che consentono di suddividere le osservazioni in determinati gruppi. L'elaborato presenta un confronto tra due tecniche di clustering: il metodo delle K-means e il metodo delle C-means. Il primo appartiene alla Cluster Analysis classica, l'altro segue la logica del Fuzzy custering. Entrambi i metodi sono parametrici e suddividono la popolazione in un numero di gruppi scelto a priori. In particolare, con il metodo delle K-means si suddividono le osservazioni casualmente e, successivamente, una alla volta vengono spostate nel gruppo con il centroide pi?ù vicino. Tale metodo risulta, quindi, molto utile quando si lavora con dati distintamente separabili. Con il metodo delle C-means, invece, non si assegnano univocamente le osservazioni ad un solo cluster, bensì? ?a tutti i gruppi con diversi gradi di appartenenza. L'applicazione di questi metodi ?è stata effettuata su un set di dati preso dal sito della Banca Mondiale. Le variabili su cui si? è concentrata l'analisi sono quelle legate alle emissioni di CO2. L'intento ?è stato quello di veri?ficare se siano stati rispettati gli obiettivi imposti dal Protocollo di Kyoto e di scoprire i paesi con comportamenti analoghi rispetto all'andamento delle emissioni dal 1990 al 2011.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
781139_tesi.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 954.2 kB
Formato Adobe PDF
954.2 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/22798