Credit scoring models are essential tools used by banks to optimize their credit granting decisions. Over the last decades, the availability of larger amount of data has enabled the development of more and more accurate credit scoring models. The models range from linear and non-linear regression models to sophisticated non-parametric machine learning models. This dissertation goes through all the main phases required to develop an effective credit-scoring model, using a unique dataset generously provided by Sella Personal Credit (SPC), a financial services company specialized in consumer credit. The dataset is made of credit applications from 2013 to 2020, for loans with educational purposes such as language courses, training courses, professional updates and tuition fees. The dataset contains information about the kind of loan, personal data of the applicant, behavioral information on the applicant coming from an external credit bureau and the repayment history of the loan. The choice of the definition of default is based on a roll rate analysis. The variable selection process includes a data quality analysis, a feature importance analysis based on the Information Value, a correlation analysis and a stability analysis based on the Population Stability Index. The thesis contributes to the debate about the use of machine learning in credit granting by comparing the performances of two different statistical models. The first model fitted to the data is the logistic regression, which has been the standard in credit industry for its simplicity and its interpretability. The second model is the XGBoost, a machine learning method proposed by Tianqi Chen and Carlos Guestrin, which can be described as a scalable tree boosting system. This work shows that, while the performance on the training dataset is generally better when using the XGBoost model, the two methods have almost the same accuracy when dealing with unseen data. The XGBoost model is slightly better in assigning a higher number of true defaults to the riskier section of the population. Given the greater complexity of the XGBoost model and its lack of interpretability and explainability, this study suggests that there is no overwhelming evidence that the XGBoost should be preferable to the logistic regression in predicting default in this specific dataset. Aside from the comparison between the two models, we were able to produce two different credit-scoring models with satisfactory level of predictive power, with a Gini index on the validation set equal to 55% for the logistic regression and equal to 58% for the XGBoost.
I modelli di valutazione del merito creditizio sono strumenti essenziali che permettono alle istituzioni finanziarie di ottimizzare le proprie decisioni di concessione del credito. Negli ultimi decenni, la sempre maggiore capacità di raccolta e memorizzazione di grandi quantità di dati ha favorito lo sviluppo di modelli predittivi sempre più precisi. I modelli utilizzati spaziano dalle regressioni lineari e non lineari a complessi modelli di machine learning non parametrici. In questa tesi si percorrono tutte le principali azioni necessarie per la costruzione di un modello di scoring creditizio a partire da un dataset originale, generosamente reso disponibile da Sella Personal Credit (SPC), società del gruppo Sella attiva nel business del credito al consumo. Il dataset è composto da richieste di prestito fatte dalla clientela di SPC fra il 2013 e il 2020 per il finanziamento di corsi di lingua, corsi di formazione, corsi di aggiornamento professionale e rette scolastiche. Il dataset utilizzato contiene informazioni sulle caratteristiche del prestito, dati anagrafici del cliente, informazioni comportamentali provenienti da una banca dati privata e lo storico dei pagamenti di ogni prestito del campione. La scelta della definizione di default è stata presa sulla base di uno studio delle matrici di transizione del numero delle rate insolute. Durante il processo di selezione delle variabili è stata svolta un’analisi di qualità dei dati, un’analisi del potere predittivo delle singole variabili nell’individuare lo stato di default, un’analisi di correlazione e infine un’analisi di stabilità delle variabili durante il periodo di osservazione. La tesi contribuisce al dibattito sull’utilizzo dei modelli di machine learning per la valutazione del merito creditizio confrontando il potere predittivo di due modelli statistici differenti. Il primo modello utilizzato è stato la regressione logistica, un modello ampiamente utilizzato dalle istituzioni finanziarie e considerato lo standard grazie alla sua semplicità e interpretabilità. Il secondo modello impiegato è stato l’XGBoost, un complesso metodo di machine learning ideato da Tianqi Chen e Carlos Guestrin che può essere descritto come un sistema di gradient boosting basato sugli alberi decisionali. I risultati ottenuti mostrano che il potere predittivo dell’XGBoost è superiore a quello della regressione logistica per quanto riguarda il campione di addestramento, mentre le performances sono quasi le stesse quando si misurano sul campione di validazione. L’XGBoost ottiene dei risultati migliori quando ci si concentra sulla porzione più rischiosa della popolazione. Nonostante ciò, a causa della sua maggiore complessità e minore interpretabilità, non si può concludere che l’XGBoost sia preferibile alla regressione logistica per valutare il merito creditizio della popolazione esaminata in questo studio. Durante lo svolgimento della tesi sono stati creati due modelli di valutazione della clientela in entrata con buon potere predittivo: il modello logistico ha registrato un indice di Gini del 55% sul campione di validazione e l’XGBoost un indice di Gini pari al 58%.
Modelli di valutazione del merito creditizio per finanziamenti all'istruzione e alla formazione.
DE BENEDETTI, EMANUELE
2022/2023
Abstract
I modelli di valutazione del merito creditizio sono strumenti essenziali che permettono alle istituzioni finanziarie di ottimizzare le proprie decisioni di concessione del credito. Negli ultimi decenni, la sempre maggiore capacità di raccolta e memorizzazione di grandi quantità di dati ha favorito lo sviluppo di modelli predittivi sempre più precisi. I modelli utilizzati spaziano dalle regressioni lineari e non lineari a complessi modelli di machine learning non parametrici. In questa tesi si percorrono tutte le principali azioni necessarie per la costruzione di un modello di scoring creditizio a partire da un dataset originale, generosamente reso disponibile da Sella Personal Credit (SPC), società del gruppo Sella attiva nel business del credito al consumo. Il dataset è composto da richieste di prestito fatte dalla clientela di SPC fra il 2013 e il 2020 per il finanziamento di corsi di lingua, corsi di formazione, corsi di aggiornamento professionale e rette scolastiche. Il dataset utilizzato contiene informazioni sulle caratteristiche del prestito, dati anagrafici del cliente, informazioni comportamentali provenienti da una banca dati privata e lo storico dei pagamenti di ogni prestito del campione. La scelta della definizione di default è stata presa sulla base di uno studio delle matrici di transizione del numero delle rate insolute. Durante il processo di selezione delle variabili è stata svolta un’analisi di qualità dei dati, un’analisi del potere predittivo delle singole variabili nell’individuare lo stato di default, un’analisi di correlazione e infine un’analisi di stabilità delle variabili durante il periodo di osservazione. La tesi contribuisce al dibattito sull’utilizzo dei modelli di machine learning per la valutazione del merito creditizio confrontando il potere predittivo di due modelli statistici differenti. Il primo modello utilizzato è stato la regressione logistica, un modello ampiamente utilizzato dalle istituzioni finanziarie e considerato lo standard grazie alla sua semplicità e interpretabilità. Il secondo modello impiegato è stato l’XGBoost, un complesso metodo di machine learning ideato da Tianqi Chen e Carlos Guestrin che può essere descritto come un sistema di gradient boosting basato sugli alberi decisionali. I risultati ottenuti mostrano che il potere predittivo dell’XGBoost è superiore a quello della regressione logistica per quanto riguarda il campione di addestramento, mentre le performances sono quasi le stesse quando si misurano sul campione di validazione. L’XGBoost ottiene dei risultati migliori quando ci si concentra sulla porzione più rischiosa della popolazione. Nonostante ciò, a causa della sua maggiore complessità e minore interpretabilità, non si può concludere che l’XGBoost sia preferibile alla regressione logistica per valutare il merito creditizio della popolazione esaminata in questo studio. Durante lo svolgimento della tesi sono stati creati due modelli di valutazione della clientela in entrata con buon potere predittivo: il modello logistico ha registrato un indice di Gini del 55% sul campione di validazione e l’XGBoost un indice di Gini pari al 58%.File | Dimensione | Formato | |
---|---|---|---|
844865_tesimagistraleemanueledebenedetti.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.38 MB
Formato
Adobe PDF
|
1.38 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/146002