Information today plays a fundamental role from a strategic point of view and in support of every decision. However, sources of information are not always available, or more often they are not directly intelligible. UnipolSai, the first non-life insurance company in Italy, a company in which I am a business controller, provided the best information material to analyze the issue of data mining. Over 9 million customers, and the information collected on them every day, is a valuable source of information, but the reading of which is difficult, especially for the search for phenomena not directly expressed by the data. In particular, the focus of the thesis is the identification of community structures among the customers, and the subsequent clustering of the identified families. The data were read from the company CRM, to then define the rules for connecting customers, then identify the community structures in the customer list. Later, with a K-means algorithm, families were clustered according to the most relevant characteristics. The structure of the generated graph depends strongly on the rules of connection between the subjects, so alternative connection criteria have been tested, and the clustering result has been evaluated by applying the different rules. The outcome of this analysis revealed how much the indirect information set in customer information is important, and how much the criteria of analysis can influence the results obtained. The analysis applications concerning the presence of communities in a group of subjects reveal structures that are potentially useful for business purposes, in particular for sales and risk management, especially if linked to different data, such as geolocation, daily habits or data from mobile devices.

L'informazione ricopre oggi un ruolo fondamentale da un punto di vista strategico e a supporto di ogni decisione. Tuttavia le fonti di informazione non sono sempre disponibili, o più spesso non sono direttamente intelligibili. UnipolSai, prima compagnia assicurativa nel ramo danni in Italia, azienda nella quale mi occupo di controllo di gestione, ha fornito il materiale informativo ottimale per approfondire il tema dell'analisi dei dati. L'insieme dei suoi oltre 9 milioni di clienti, e le informazioni che su di essi vengono quotidianamente raccolte, costituisce una fonte informativa preziosa, ma la cui lettura è difficile, soprattutto per la ricerca di fenomeni non direttamente espressi dai dati. In particolare il focus della tesi è l'individuazione di strutture comunitarie tra i clienti, e la successiva clusterizzazione dei nuclei individuati. La lettura dei dati è avvenuta mediante il CRM aziendale, per definire quindi le regole di collegamento tra i clienti, quindi individuare le strutture comunitarie presenti nel portafoglio clienti. In seguito con un algoritmo di K-means i nuclei sono stati clusterizzati in base alle caratteristiche più rilevanti. La struttura del grafo generato dipende fortemente dalle regole di collegamento tra i soggetti, sono stati dunque testati criteri di collegamento alternativi, e valutato l'esito del clustering applicando le diverse regole. L'esito di questa analisi ha rivelato quanto il corredo informativo indiretto presente nelle informazioni dei clienti sia importante, e quanto i criteri di analisi possano influire sui risultati ottenuti. Le applicazioni di analisi riguardanti le comunità presenti in un gruppo di soggetti rivelano strutture potenzialmente utili ai fini aziendali, per la gestione delle vendite e l'ottimizzazione dei rischi, in particolare se collegate a dati diversi, come la geolocalizzazione, le abitudini quotidiane o i dati dei dispositivi mobili.

Community detection tramite clustering: un'applicazione in ambito data mining

CLOT, LUCA
2017/2018

Abstract

L'informazione ricopre oggi un ruolo fondamentale da un punto di vista strategico e a supporto di ogni decisione. Tuttavia le fonti di informazione non sono sempre disponibili, o più spesso non sono direttamente intelligibili. UnipolSai, prima compagnia assicurativa nel ramo danni in Italia, azienda nella quale mi occupo di controllo di gestione, ha fornito il materiale informativo ottimale per approfondire il tema dell'analisi dei dati. L'insieme dei suoi oltre 9 milioni di clienti, e le informazioni che su di essi vengono quotidianamente raccolte, costituisce una fonte informativa preziosa, ma la cui lettura è difficile, soprattutto per la ricerca di fenomeni non direttamente espressi dai dati. In particolare il focus della tesi è l'individuazione di strutture comunitarie tra i clienti, e la successiva clusterizzazione dei nuclei individuati. La lettura dei dati è avvenuta mediante il CRM aziendale, per definire quindi le regole di collegamento tra i clienti, quindi individuare le strutture comunitarie presenti nel portafoglio clienti. In seguito con un algoritmo di K-means i nuclei sono stati clusterizzati in base alle caratteristiche più rilevanti. La struttura del grafo generato dipende fortemente dalle regole di collegamento tra i soggetti, sono stati dunque testati criteri di collegamento alternativi, e valutato l'esito del clustering applicando le diverse regole. L'esito di questa analisi ha rivelato quanto il corredo informativo indiretto presente nelle informazioni dei clienti sia importante, e quanto i criteri di analisi possano influire sui risultati ottenuti. Le applicazioni di analisi riguardanti le comunità presenti in un gruppo di soggetti rivelano strutture potenzialmente utili ai fini aziendali, per la gestione delle vendite e l'ottimizzazione dei rischi, in particolare se collegate a dati diversi, come la geolocalizzazione, le abitudini quotidiane o i dati dei dispositivi mobili.
ITA
Information today plays a fundamental role from a strategic point of view and in support of every decision. However, sources of information are not always available, or more often they are not directly intelligible. UnipolSai, the first non-life insurance company in Italy, a company in which I am a business controller, provided the best information material to analyze the issue of data mining. Over 9 million customers, and the information collected on them every day, is a valuable source of information, but the reading of which is difficult, especially for the search for phenomena not directly expressed by the data. In particular, the focus of the thesis is the identification of community structures among the customers, and the subsequent clustering of the identified families. The data were read from the company CRM, to then define the rules for connecting customers, then identify the community structures in the customer list. Later, with a K-means algorithm, families were clustered according to the most relevant characteristics. The structure of the generated graph depends strongly on the rules of connection between the subjects, so alternative connection criteria have been tested, and the clustering result has been evaluated by applying the different rules. The outcome of this analysis revealed how much the indirect information set in customer information is important, and how much the criteria of analysis can influence the results obtained. The analysis applications concerning the presence of communities in a group of subjects reveal structures that are potentially useful for business purposes, in particular for sales and risk management, especially if linked to different data, such as geolocation, daily habits or data from mobile devices.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
281372_lucaclot_tesi_specialistica_20180630.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 849.34 kB
Formato Adobe PDF
849.34 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/93995