L’Anomaly Detection è un topic sempre più importante e il suo utilizzo spazia dal campo medico per arrivare a quello finanziario passando anche per approcci più standard come l'analisi di sensori installati su strumenti o macchinari. Il task che risolve è quello di identificare eventi od osservazioni rari oppure che deviano in maniera significativa dalla maggioranza dei dati e che non corrispondono a una definizione di comportamento normale. Ricercare queste anomalie può essere utile quando si devono applicare metodi statistici e una pulizia dei dati è necessaria, ma non solo. In molte applicazioni le anomalie sono di alto interesse in quanto possono contenere informazioni di rilievo e quindi necessitano di attenzione. I metodi di Anomaly Detection si dividono tra supervisionati, semi-supervisionati o non supervisionati e un ampio numero di essi sono stati proposti nella letteratura ma non esiste un metodo che sia il più accurato per ogni dataset. Inoltre, la disponibilità di etichette di anomalia per un certo dataset è solitamente bassa o completamente assente nella pratica. L’obiettivo di questa tesi è quello di applicare metodi non supervisionati di Anomaly Detection all'interno del progetto Beat 4.0 portato avanti da SKF e ALTEN ITALIA. A seguito di un'introduzione sul contesto in cui si opera, dei problemi e delle principali tecniche proposte nella letteratura, verrà mostrato un algoritmo di Model Selection che va a rispondere alla seguente domanda: dato un dataset senza etichette e un set di Anomaly Detectors, come poter selezionare il modello più accurato? A questo scopo vengono definite tre classi di metriche non supervisionate chiamate Model Centrality, Clustering Coefficient e Performance on Injected Synthetic Anomalies e viene mostrato come queste siano correlate rispetto alla metrica supervisionata F1-Score. Saranno proposti anche diversi metodi di Rank Aggregation: Borda, Robust Borda, AVG Score e Kemeny-Young utilizzati per combinare le tre metriche non supervisionate, e un'analisi approfondita sulle performance di ognuno rispetto a dataset di benchmark provenienti da ODDS e SMD.
ANOMALY DETECTION NON SUPERVISIONATO PER UN INDUSTRIA MANIFATTURIERA
GIRAUDO, LORIS
2021/2022
Abstract
L’Anomaly Detection è un topic sempre più importante e il suo utilizzo spazia dal campo medico per arrivare a quello finanziario passando anche per approcci più standard come l'analisi di sensori installati su strumenti o macchinari. Il task che risolve è quello di identificare eventi od osservazioni rari oppure che deviano in maniera significativa dalla maggioranza dei dati e che non corrispondono a una definizione di comportamento normale. Ricercare queste anomalie può essere utile quando si devono applicare metodi statistici e una pulizia dei dati è necessaria, ma non solo. In molte applicazioni le anomalie sono di alto interesse in quanto possono contenere informazioni di rilievo e quindi necessitano di attenzione. I metodi di Anomaly Detection si dividono tra supervisionati, semi-supervisionati o non supervisionati e un ampio numero di essi sono stati proposti nella letteratura ma non esiste un metodo che sia il più accurato per ogni dataset. Inoltre, la disponibilità di etichette di anomalia per un certo dataset è solitamente bassa o completamente assente nella pratica. L’obiettivo di questa tesi è quello di applicare metodi non supervisionati di Anomaly Detection all'interno del progetto Beat 4.0 portato avanti da SKF e ALTEN ITALIA. A seguito di un'introduzione sul contesto in cui si opera, dei problemi e delle principali tecniche proposte nella letteratura, verrà mostrato un algoritmo di Model Selection che va a rispondere alla seguente domanda: dato un dataset senza etichette e un set di Anomaly Detectors, come poter selezionare il modello più accurato? A questo scopo vengono definite tre classi di metriche non supervisionate chiamate Model Centrality, Clustering Coefficient e Performance on Injected Synthetic Anomalies e viene mostrato come queste siano correlate rispetto alla metrica supervisionata F1-Score. Saranno proposti anche diversi metodi di Rank Aggregation: Borda, Robust Borda, AVG Score e Kemeny-Young utilizzati per combinare le tre metriche non supervisionate, e un'analisi approfondita sulle performance di ognuno rispetto a dataset di benchmark provenienti da ODDS e SMD.File | Dimensione | Formato | |
---|---|---|---|
858105_tesi_magistrale.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
3.68 MB
Formato
Adobe PDF
|
3.68 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/83703