ANOMALY DETECTION NON SUPERVISIONATO PER UN INDUSTRIA MANIFATTURIERA

L’Anomaly Detection è un topic sempre più importante e il suo utilizzo spazia dal campo medico per arrivare a quello finanziario passando anche per approcci più standard come l'analisi di sensori installati su strumenti o macchinari. Il task che risolve è quello di identificare eventi od osservazioni rari oppure che deviano in maniera significativa dalla maggioranza dei dati e che non corrispondono a una definizione di comportamento normale. Ricercare queste anomalie può essere utile quando si devono applicare metodi statistici e una pulizia dei dati è necessaria, ma non solo. In molte applicazioni le anomalie sono di alto interesse in quanto possono contenere informazioni di rilievo e quindi necessitano di attenzione. I metodi di Anomaly Detection si dividono tra supervisionati, semi-supervisionati o non supervisionati e un ampio numero di essi sono stati proposti nella letteratura ma non esiste un metodo che sia il più accurato per ogni dataset. Inoltre, la disponibilità di etichette di anomalia per un certo dataset è solitamente bassa o completamente assente nella pratica. L’obiettivo di questa tesi è quello di applicare metodi non supervisionati di Anomaly Detection all'interno del progetto Beat 4.0 portato avanti da SKF e ALTEN ITALIA. A seguito di un'introduzione sul contesto in cui si opera, dei problemi e delle principali tecniche proposte nella letteratura, verrà mostrato un algoritmo di Model Selection che va a rispondere alla seguente domanda: dato un dataset senza etichette e un set di Anomaly Detectors, come poter selezionare il modello più accurato? A questo scopo vengono definite tre classi di metriche non supervisionate chiamate Model Centrality, Clustering Coefficient e Performance on Injected Synthetic Anomalies e viene mostrato come queste siano correlate rispetto alla metrica supervisionata F1-Score. Saranno proposti anche diversi metodi di Rank Aggregation: Borda, Robust Borda, AVG Score e Kemeny-Young utilizzati per combinare le tre metriche non supervisionate, e un'analisi approfondita sulle performance di ognuno rispetto a dataset di benchmark provenienti da ODDS e SMD.

ANOMALY DETECTION NON SUPERVISIONATO PER UN INDUSTRIA MANIFATTURIERA

GIRAUDO, LORIS

2021/2022

Abstract

L’Anomaly Detection è un topic sempre più importante e il suo utilizzo spazia dal campo medico per arrivare a quello finanziario passando anche per approcci più standard come l'analisi di sensori installati su strumenti o macchinari. Il task che risolve è quello di identificare eventi od osservazioni rari oppure che deviano in maniera significativa dalla maggioranza dei dati e che non corrispondono a una definizione di comportamento normale. Ricercare queste anomalie può essere utile quando si devono applicare metodi statistici e una pulizia dei dati è necessaria, ma non solo. In molte applicazioni le anomalie sono di alto interesse in quanto possono contenere informazioni di rilievo e quindi necessitano di attenzione. I metodi di Anomaly Detection si dividono tra supervisionati, semi-supervisionati o non supervisionati e un ampio numero di essi sono stati proposti nella letteratura ma non esiste un metodo che sia il più accurato per ogni dataset. Inoltre, la disponibilità di etichette di anomalia per un certo dataset è solitamente bassa o completamente assente nella pratica. L’obiettivo di questa tesi è quello di applicare metodi non supervisionati di Anomaly Detection all'interno del progetto Beat 4.0 portato avanti da SKF e ALTEN ITALIA. A seguito di un'introduzione sul contesto in cui si opera, dei problemi e delle principali tecniche proposte nella letteratura, verrà mostrato un algoritmo di Model Selection che va a rispondere alla seguente domanda: dato un dataset senza etichette e un set di Anomaly Detectors, come poter selezionare il modello più accurato? A questo scopo vengono definite tre classi di metriche non supervisionate chiamate Model Centrality, Clustering Coefficient e Performance on Injected Synthetic Anomalies e viene mostrato come queste siano correlate rispetto alla metrica supervisionata F1-Score. Saranno proposti anche diversi metodi di Rank Aggregation: Borda, Robust Borda, AVG Score e Kemeny-Young utilizzati per combinare le tre metriche non supervisionate, e un'analisi approfondita sulle performance di ognuno rispetto a dataset di benchmark provenienti da ODDS e SMD.

Scheda breve

	Facoltà/Dipartimento
	
				INFORMATICA
			
	Corso di studio
	
				INFORMATICA
			
	Lingua
	
				ITA
			
	Relatrice / Relatore
	
				HORVATH, Andras
			
	Modalità consultazione tesi
	
				IMPORT DA TESIONLINE
			
	Appare nelle tipologie:
	
				Corso di Laurea Magistrale

File in questo prodotto:

File	Dimensione	Formato
858105_tesi_magistrale.pdf non disponibili Tipologia: Altro materiale allegato Dimensione 3.68 MB Formato Adobe PDF	3.68 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/83703