The following paper aims at evaluating the effectiveness of Machine Learning (ML) algorithms for detecting and preventing credit card fraud and other types of unauthorized payments in the context of online banking. After a brief review of the current landscape regarding cyber fraud and the Fraud Detection Systems (FDS) employed in the banking sector, the research focuses on the application of four ML models (Random Forest, Decision Tree, Neural Network, and Logistic Regression). Such models have been selected based on their proven effectiveness in the existing literature and their ability to adapt to various types of fraudulent activities. The empirical analysis is based on real-world data and requires preliminary stages such as data preprocessing and data cleaning, which are crucial for ensuring the accuracy of the predictions. The performance of the models was subsequently evaluated using metrics such as accuracy, precision, recall, and AUC. The results show that the Random Forest, Decision Tree, and Neural Network models exhibit strong predictive capabilities and are effective in balancing false positives and false negatives. In contrast, while Logistic Regression demonstrated a good balance between precision and recall, it recorded a higher number of false positives, making it less effective than the other models. In conclusion, this study supports the adoption of ML algorithms in the implementation and management of fraud detection systems in the banking sector. However, it requires careful planning by financial institutions to balance performance and reliability while also minimizing potential issues such as the availability of clean and representative data, the risk of overfitting and the management of false positives.
Il seguente elaborato si propone di valutare l’efficacia degli algoritmi di Machine Learning (ML) nel riconoscimento e nella prevenzione delle frodi con carta di credito e di altre tipologie di pagamenti non autorizzati, con un focus sull’ambito dell’online banking. Dopo aver esaminato il contesto attuale delle frodi informatiche e dei Fraud Detection Systems (FDS) utilizzati nel settore bancario, la ricerca si concentra sull'applicazione di quattro modelli di ML (Random Forest, Decision Tree, Neural Network e Logistic Regression), selezionati in base alla loro comprovata efficacia nella letteratura esistente e alla loro capacità di adattarsi a diverse tipologie di attività fraudolente. L'analisi empirica si basa su un dataset reale e prevede fasi propedeutiche quali il preprocessing e la pulizia dei dati, attività fondamentali per garantire l'accuratezza delle previsioni. La performance dei modelli è stata successivamente valutata utilizzando metriche quali accuratezza, precisione, richiamo e AUC. I risultati mostrano che i modelli Random Forest, Decision Tree e Neural Network offrono una capacità predittiva elevata e un efficace bilanciamento tra falsi positivi e falsi negativi. Al contrario, la Logistic Regression, pur mostrando un buon bilanciamento tra precisione e richiamo, ha registrato un numero maggiore di falsi positivi, rendendola meno performante rispetto agli altri modelli. In conclusione, il lavoro svolto supporta l’adozione di algoritmi di ML nell’implementazione e gestione di sistemi di rilevazione delle frodi bancarie, sebbene si rivela necessaria un’attenta pianificazione da parte delle istituzioni finanziarie allo scopo di bilanciare performance e affidabilità e minimizzare eventuali criticità quali la disponibilità di dati puliti e rappresentativi, il rischio di overfitting e la gestione dei falsi positivi.
L’impatto degli algoritmi di Machine Learning nella rilevazione e prevenzione delle frodi bancarie: un’analisi empirica applicata ai sistemi di pagamento digitali
DE VECCHI, MATTEO
2023/2024
Abstract
Il seguente elaborato si propone di valutare l’efficacia degli algoritmi di Machine Learning (ML) nel riconoscimento e nella prevenzione delle frodi con carta di credito e di altre tipologie di pagamenti non autorizzati, con un focus sull’ambito dell’online banking. Dopo aver esaminato il contesto attuale delle frodi informatiche e dei Fraud Detection Systems (FDS) utilizzati nel settore bancario, la ricerca si concentra sull'applicazione di quattro modelli di ML (Random Forest, Decision Tree, Neural Network e Logistic Regression), selezionati in base alla loro comprovata efficacia nella letteratura esistente e alla loro capacità di adattarsi a diverse tipologie di attività fraudolente. L'analisi empirica si basa su un dataset reale e prevede fasi propedeutiche quali il preprocessing e la pulizia dei dati, attività fondamentali per garantire l'accuratezza delle previsioni. La performance dei modelli è stata successivamente valutata utilizzando metriche quali accuratezza, precisione, richiamo e AUC. I risultati mostrano che i modelli Random Forest, Decision Tree e Neural Network offrono una capacità predittiva elevata e un efficace bilanciamento tra falsi positivi e falsi negativi. Al contrario, la Logistic Regression, pur mostrando un buon bilanciamento tra precisione e richiamo, ha registrato un numero maggiore di falsi positivi, rendendola meno performante rispetto agli altri modelli. In conclusione, il lavoro svolto supporta l’adozione di algoritmi di ML nell’implementazione e gestione di sistemi di rilevazione delle frodi bancarie, sebbene si rivela necessaria un’attenta pianificazione da parte delle istituzioni finanziarie allo scopo di bilanciare performance e affidabilità e minimizzare eventuali criticità quali la disponibilità di dati puliti e rappresentativi, il rischio di overfitting e la gestione dei falsi positivi.File | Dimensione | Formato | |
---|---|---|---|
De_Vecchi_Matteo_Tesi_Triennale.pdf
non disponibili
Dimensione
1.14 MB
Formato
Adobe PDF
|
1.14 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/5165