Un problema di grande importanza in Machine Learning riguarda il trattamento di dataset ad alta dimensionalità in cui il numero di features p è molto maggiore del numero di istanze N causando possibili problemi di overfitting. Ciò avviene spesso, per esempio, in genomica e in altre aree di biologia computazionale. Un altro problema di estrema rilevanza, soprattutto per modelli di Deep Learning, riguarda l’interpretabilità. Le Deep Neural Network (DNN) sono modelli che spesso hanno ottime capacità predittive, ma che vengono trattate come delle black box. Non è chiaro, infatti, quali siano le variabili di input che determinano maggiormente la predizione del modello. Una soluzione possibile ad entrambi questi problemi è la feature selection (FS): tra le p features del dataset considerato, selezionare un subset di k < p features rilevanti. Negli ultimi anni sono stati sviluppati alcuni metodi di FS non lineari basati su DNN. In questo lavoro di tesi sono stati presi alcuni di questi metodi: CancelOut (Borisov, 2019 ), DeepPINK (Young Lu & Fan, 2018 ), Concrete Autoencoder (Abid & Balin, 2019 ), FSNet (Singh & Yamada, 2020 ) e sono stati confrontati tra loro utilizzando dataset sintetici. La motivazione di fondo di questo lavoro è la seguente: non esiste, ad oggi, un confronto sistematico di questi metodi su dataset sui quali abbiamo il pieno controllo. L’idea è quindi quella di creare dei dataset sintetici non lineari con relazioni note tra variabili di input e output e testare i modelli sopra citati in diverse condizioni: facendo variare il numero di features p e di istanze N, facendo variare la densità di features rilevanti e di features random e utilizzando diverse architetture per le Neural Network (NN) che compongono i modelli. Si sono inoltre confrontati i risultati ottenuti con le performance sugli stessi dataset di uno dei modelli non lineari di feature selection più in uso sia per la sua efficacia che per il basso costo computazionale: Random Forest Feature Importance. Infine, un contributo originale di questa tesi è stato l’implementazione di un nuovo modello di Deep Learning per feature selection, non presente nella letteratura corrente, basato sul bagging abbinato a CancelOut al fine di ottenere migliori risultati sui dataset analizzati. Questo metodo è stato chiamato Bagging + CancelOut (BCO) e, sui dataset presi in esame, ha ottenuto risultati incoraggianti.
Metodi di predizione basati sul deep-learning e selezione automatica delle variabili di input
FOLCO, PIETRO
2019/2020
Abstract
Un problema di grande importanza in Machine Learning riguarda il trattamento di dataset ad alta dimensionalità in cui il numero di features p è molto maggiore del numero di istanze N causando possibili problemi di overfitting. Ciò avviene spesso, per esempio, in genomica e in altre aree di biologia computazionale. Un altro problema di estrema rilevanza, soprattutto per modelli di Deep Learning, riguarda l’interpretabilità. Le Deep Neural Network (DNN) sono modelli che spesso hanno ottime capacità predittive, ma che vengono trattate come delle black box. Non è chiaro, infatti, quali siano le variabili di input che determinano maggiormente la predizione del modello. Una soluzione possibile ad entrambi questi problemi è la feature selection (FS): tra le p features del dataset considerato, selezionare un subset di k < p features rilevanti. Negli ultimi anni sono stati sviluppati alcuni metodi di FS non lineari basati su DNN. In questo lavoro di tesi sono stati presi alcuni di questi metodi: CancelOut (Borisov, 2019 ), DeepPINK (Young Lu & Fan, 2018 ), Concrete Autoencoder (Abid & Balin, 2019 ), FSNet (Singh & Yamada, 2020 ) e sono stati confrontati tra loro utilizzando dataset sintetici. La motivazione di fondo di questo lavoro è la seguente: non esiste, ad oggi, un confronto sistematico di questi metodi su dataset sui quali abbiamo il pieno controllo. L’idea è quindi quella di creare dei dataset sintetici non lineari con relazioni note tra variabili di input e output e testare i modelli sopra citati in diverse condizioni: facendo variare il numero di features p e di istanze N, facendo variare la densità di features rilevanti e di features random e utilizzando diverse architetture per le Neural Network (NN) che compongono i modelli. Si sono inoltre confrontati i risultati ottenuti con le performance sugli stessi dataset di uno dei modelli non lineari di feature selection più in uso sia per la sua efficacia che per il basso costo computazionale: Random Forest Feature Importance. Infine, un contributo originale di questa tesi è stato l’implementazione di un nuovo modello di Deep Learning per feature selection, non presente nella letteratura corrente, basato sul bagging abbinato a CancelOut al fine di ottenere migliori risultati sui dataset analizzati. Questo metodo è stato chiamato Bagging + CancelOut (BCO) e, sui dataset presi in esame, ha ottenuto risultati incoraggianti.File | Dimensione | Formato | |
---|---|---|---|
798903_pietrofolcotesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
9.13 MB
Formato
Adobe PDF
|
9.13 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/155829