In the past years, there has been a massive spike in the awareness of ethical issues within Artificial Intelligence approaches. A branch in particular, AI Fairness, studies debiasing methodologies for contrasting discrimination automated by ML models, which can inherit unfair patterns usually through biased data. The main contribution of this thesis focuses on extending a known framework for learning distances of categorical data, named DILCA, which exploits co-distributions of attributes values for computing similarities, to include fairness considerations. FairDILCA is a pre-processing technique that meets this need by considering the correlation of the features w.r.t. the protected attribute in order to create an unbiased representation of the dataset on which is applied, making any subsequent learning fair. Plus, aside its flexibility in the fairness-accuracy trade-off and its native support for categorical data, it also represents a more explainable option than many others in literature, since it relies on correlations between attributes for selecting features in the context creation and distance computation steps. Lastly, the document also discusses the analysis of the performances of FairDILCA on multiple benchmarks datasets and ML tasks, such as classification and clustering, and possible improvements to the framework. ​

Negli ultimi anni, si è visto un notevole incremento riguardo la consapevolezza sui problemi etici all'interno degli approcci di Intelligenza artificiale. Un ramo in particolare, IA Fair, studia metodologie di debiasing per contrastare la discriminazione automatizzata da modelli di apprendimento automatico, che possono ereditare pattern ingiusti attraverso bias presenti nei dati. Il contributo principale di questa tesi si concentra sull'estendere un noto framework per l'apprendimento di distanze per dati categorici, chiamato DILCA, che sfrutta le codistribuzioni dei valori degli attributi per calcolare le similarità, ad includere considerazioni sulla fairness. FairDILCA è una tecnica di pre-processing che soddisfa questa esigenza considerando la correlazione delle feature rispetto all'attributo protetto per poter creare una rappresentazione fair del dataset su cui è applicato, facendo si che ogni apprendimento seguente sia fair. In più, oltre alla sua flessibilità nel compromesso tra fairness e accuratezza e il suo supporto nativo agli attributi categorici, rappresenta anche una opzione maggiormente interpretabile rispetto a molte altre in letteratura, dato che si basa sulla correlazione tra attributi per selezionare feature durante le fasi di creazione del contesto e calcolo della distanza. Infine, il documento discute l'analisi delle prestazioni di FairDILCA su molteplici dataset e task di ML, come la classificazione e il clustering, e possibili miglioramenti al framework. ​

Apprendimento fair di distanze su dati categorici

FAMIANI, ALESSIO
2022/2023

Abstract

Negli ultimi anni, si è visto un notevole incremento riguardo la consapevolezza sui problemi etici all'interno degli approcci di Intelligenza artificiale. Un ramo in particolare, IA Fair, studia metodologie di debiasing per contrastare la discriminazione automatizzata da modelli di apprendimento automatico, che possono ereditare pattern ingiusti attraverso bias presenti nei dati. Il contributo principale di questa tesi si concentra sull'estendere un noto framework per l'apprendimento di distanze per dati categorici, chiamato DILCA, che sfrutta le codistribuzioni dei valori degli attributi per calcolare le similarità, ad includere considerazioni sulla fairness. FairDILCA è una tecnica di pre-processing che soddisfa questa esigenza considerando la correlazione delle feature rispetto all'attributo protetto per poter creare una rappresentazione fair del dataset su cui è applicato, facendo si che ogni apprendimento seguente sia fair. In più, oltre alla sua flessibilità nel compromesso tra fairness e accuratezza e il suo supporto nativo agli attributi categorici, rappresenta anche una opzione maggiormente interpretabile rispetto a molte altre in letteratura, dato che si basa sulla correlazione tra attributi per selezionare feature durante le fasi di creazione del contesto e calcolo della distanza. Infine, il documento discute l'analisi delle prestazioni di FairDILCA su molteplici dataset e task di ML, come la classificazione e il clustering, e possibili miglioramenti al framework. ​
ENG
In the past years, there has been a massive spike in the awareness of ethical issues within Artificial Intelligence approaches. A branch in particular, AI Fairness, studies debiasing methodologies for contrasting discrimination automated by ML models, which can inherit unfair patterns usually through biased data. The main contribution of this thesis focuses on extending a known framework for learning distances of categorical data, named DILCA, which exploits co-distributions of attributes values for computing similarities, to include fairness considerations. FairDILCA is a pre-processing technique that meets this need by considering the correlation of the features w.r.t. the protected attribute in order to create an unbiased representation of the dataset on which is applied, making any subsequent learning fair. Plus, aside its flexibility in the fairness-accuracy trade-off and its native support for categorical data, it also represents a more explainable option than many others in literature, since it relies on correlations between attributes for selecting features in the context creation and distance computation steps. Lastly, the document also discusses the analysis of the performances of FairDILCA on multiple benchmarks datasets and ML tasks, such as classification and clustering, and possible improvements to the framework. ​
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
958461_master_thesis_learning_fair_distances_in_categorical_data_alessio_famiani.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 22.79 MB
Formato Adobe PDF
22.79 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/105800