La presente tesi si sviluppa quindi nell'ambito delle piattaforme di Customer Data Integration (CDI) le quali consentono appunto una visione integrata e multiobiettivo della clientela basata sul consolidamento di dati informativi provenienti da sorgenti disparate interne ed esterne all'azienda; da qui la necessità di usare tecniche di Data Quality, basate sulla normalizzazione e sul riconoscimento anagrafico, per consentire una corretta correlazione dell'informazione. Il lavoro partirà dall'analisi del modello dati di riferimento, cioè rappresentante un cliente/consumatore, con l'obiettivo di progettare il processo di acquisizione dati provenienti dai vari sistemi alimentanti, ponendo particolare attenzione alla gestione della qualità già a livello degli schemi, secondo quanto definito in letteratura. Successivamente si passerà alle misurazioni e all'analisi qualitativa dei dati; per quanto riguarda le misurazioni, basandosi su studi presenti in letteratura, verranno progettati ed implementati, sottoforma di procedure PL/SQL, diversi algoritmi per il calcolo dei KPI (Key Performance Indicator) relativi ai flussi analizzati; mentre per quel che riguarda l'analisi si adotterà uno strumento proprietario di Data Profiling, il quale permetterà di eseguire sia delle valutazioni sintattiche/strutturali dei dati, che delle analisi semantiche, ad esempio mediante l'introduzione di vincoli di business; inoltre, nell'ottica di valutare le prestazioni del prodotto di normalizzazione utilizzato per normalizzare/arricchire i dati di scarsa qualità e per il riconoscimento anagrafico dei soggetti doppi o presunti tali, la fase di analisi della qualità verrà eseguita confrontando i vari KPY calcolati sui flussi prima e dopo che il normalizzatore li abbia elaborati. Infine si discuteranno le modalità di riconoscimento dei soggetti, vitali per gli obiettivi di integrazione delle piattaforme CDI, attraverso la presentazione delle caratteristiche e delle prestazioni di un motore di doblonatura proprietario, nonché attraverso la progettazione e l'implementazione, sottoforma di Java Application, di due algoritmi di matching anagrafico basati sul confronto tra stringhe, in particolare sulle Ragioni Sociali dei soggetti in esame, che costituiscono l'aspetto più innovativo sviluppato nella tesi. Il lavoro svolto in questo caso infatti si basa sull'estensione di un particolare algoritmo di pattern matching chiamato FJS e sviluppato in Java da Jenning, Franek e Smyth presso l'università Simon Fraser in California, basato a sua volta sui più noti studi presenti in letteratura relativi a questa tematica; in particolare sui lavori, riconosciuti a livello internazionale, di Knuth-Morris-Pratt, Sunday e Boyer-Moore. L'obiettivo dell'estensione è stato quello di voler riadattare al caso del matching tra Ragioni Sociali le desiderabili proprietà di efficienza e correttezza dell'algoritmo FJS; i risultati ottenuti verranno presentati sotto forma di due differenti algoritmi, il primo sarà un algoritmo di pattern matching esatto, ovvero il quale restituirà un peso al matching tra due soggetti solo quando gli input relativi agli stessi coincideranno esattamente e solo se il totale dei pesi applicati ai vari confronti supererà una soglia di accettazione impostata dall'esterno; in questo caso la linea guida dell'algoritmo sarà la ricerca efficiente dell'allineamento massimale tra due ragioni sociali. Il secondo algoritmo sarà di pattern matching approssimato, basato esso stesso sul precedente ma rilassando il vincolo di ricercare un allineamento esatto massimale a favore di un matching più lasco, ottenuto sfruttando delle ricerche binarie molto efficienti e l'algoritmo Soundex, introdotto da Russell ed utilizzato per l'indicizzazione dei nomi basata su una codifica del loro fonema espresso in lingua inglese.

TECNICHE DI DATA QUALITY PER LA CUSTOMER DATA INTEGRATION

PUGLISI, MASSIMO
2007/2008

Abstract

La presente tesi si sviluppa quindi nell'ambito delle piattaforme di Customer Data Integration (CDI) le quali consentono appunto una visione integrata e multiobiettivo della clientela basata sul consolidamento di dati informativi provenienti da sorgenti disparate interne ed esterne all'azienda; da qui la necessità di usare tecniche di Data Quality, basate sulla normalizzazione e sul riconoscimento anagrafico, per consentire una corretta correlazione dell'informazione. Il lavoro partirà dall'analisi del modello dati di riferimento, cioè rappresentante un cliente/consumatore, con l'obiettivo di progettare il processo di acquisizione dati provenienti dai vari sistemi alimentanti, ponendo particolare attenzione alla gestione della qualità già a livello degli schemi, secondo quanto definito in letteratura. Successivamente si passerà alle misurazioni e all'analisi qualitativa dei dati; per quanto riguarda le misurazioni, basandosi su studi presenti in letteratura, verranno progettati ed implementati, sottoforma di procedure PL/SQL, diversi algoritmi per il calcolo dei KPI (Key Performance Indicator) relativi ai flussi analizzati; mentre per quel che riguarda l'analisi si adotterà uno strumento proprietario di Data Profiling, il quale permetterà di eseguire sia delle valutazioni sintattiche/strutturali dei dati, che delle analisi semantiche, ad esempio mediante l'introduzione di vincoli di business; inoltre, nell'ottica di valutare le prestazioni del prodotto di normalizzazione utilizzato per normalizzare/arricchire i dati di scarsa qualità e per il riconoscimento anagrafico dei soggetti doppi o presunti tali, la fase di analisi della qualità verrà eseguita confrontando i vari KPY calcolati sui flussi prima e dopo che il normalizzatore li abbia elaborati. Infine si discuteranno le modalità di riconoscimento dei soggetti, vitali per gli obiettivi di integrazione delle piattaforme CDI, attraverso la presentazione delle caratteristiche e delle prestazioni di un motore di doblonatura proprietario, nonché attraverso la progettazione e l'implementazione, sottoforma di Java Application, di due algoritmi di matching anagrafico basati sul confronto tra stringhe, in particolare sulle Ragioni Sociali dei soggetti in esame, che costituiscono l'aspetto più innovativo sviluppato nella tesi. Il lavoro svolto in questo caso infatti si basa sull'estensione di un particolare algoritmo di pattern matching chiamato FJS e sviluppato in Java da Jenning, Franek e Smyth presso l'università Simon Fraser in California, basato a sua volta sui più noti studi presenti in letteratura relativi a questa tematica; in particolare sui lavori, riconosciuti a livello internazionale, di Knuth-Morris-Pratt, Sunday e Boyer-Moore. L'obiettivo dell'estensione è stato quello di voler riadattare al caso del matching tra Ragioni Sociali le desiderabili proprietà di efficienza e correttezza dell'algoritmo FJS; i risultati ottenuti verranno presentati sotto forma di due differenti algoritmi, il primo sarà un algoritmo di pattern matching esatto, ovvero il quale restituirà un peso al matching tra due soggetti solo quando gli input relativi agli stessi coincideranno esattamente e solo se il totale dei pesi applicati ai vari confronti supererà una soglia di accettazione impostata dall'esterno; in questo caso la linea guida dell'algoritmo sarà la ricerca efficiente dell'allineamento massimale tra due ragioni sociali. Il secondo algoritmo sarà di pattern matching approssimato, basato esso stesso sul precedente ma rilassando il vincolo di ricercare un allineamento esatto massimale a favore di un matching più lasco, ottenuto sfruttando delle ricerche binarie molto efficienti e l'algoritmo Soundex, introdotto da Russell ed utilizzato per l'indicizzazione dei nomi basata su una codifica del loro fonema espresso in lingua inglese.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/70574