Inserito nel contesto di una collaborazione con FPT industrial della durata di sei mesi, il progetto di tesi si colloca nell'ambito della gestione dei rischi. Lo scopo principale è dunque suggerire un'applicazione di tecniche di statistical/machine learning al fine di supportare gli utenti addetti alla gestione del rischio nelle fasi di sviluppo. L'elaborato si focalizza sulla presentazione di tecniche di classificazione in ambito di linguaggio naturale in un contesto multiclass. Vengono dunque introdotte differenti metodologie di rappresentazione vettoriale dei termini di un vocabolario quali TF, TF-IDF, Glove e word2vec . Si presentano in seguito i modelli del percettrone e delle reti neurali feedforward. Nell'ambito del deep learning viene approfondito l'uso dell'operatore di convoluzione. Per quanto riguarda l'applicazione ai dati è stato necessario gestire lo sbilanciamento del dataset originario tramite undersampling o inserendo dei pesi a livello di classe. In accordo con la letteratura di riferimento, la scelta del modello si basa sull'indicatore F1. Oltre alle tecniche di text mining l'elaborato introduce la regressione beta nell'ambito della gestione di variabili a range limitato confrontando tale modello con una regressione lineare in cui la variabilie risposta viene trasformata tramite logit. Infine si lascia spazio ad alcune considerazioni sull'utilizzo di tecniche di deep learning presentandone limiti e vantaggi. Alcune possibili estensioni sono inoltre individuate nella possibilità di rappresentare il corpus tramite strutture a grafo, sfruttando una rappresentazione del dato al di fuori degli spazi Euclidei. Si apre dunque alla possibilità di utilizzare tecniche quali Graph Convolutional Network o SVM per la classificazione semi-supervisionata dei nodi.​
Deep learning nella classificazione testuale in contesto multiclasse: una applicazione industriale
CUCCO, ALEX
2018/2019
Abstract
Inserito nel contesto di una collaborazione con FPT industrial della durata di sei mesi, il progetto di tesi si colloca nell'ambito della gestione dei rischi. Lo scopo principale è dunque suggerire un'applicazione di tecniche di statistical/machine learning al fine di supportare gli utenti addetti alla gestione del rischio nelle fasi di sviluppo. L'elaborato si focalizza sulla presentazione di tecniche di classificazione in ambito di linguaggio naturale in un contesto multiclass. Vengono dunque introdotte differenti metodologie di rappresentazione vettoriale dei termini di un vocabolario quali TF, TF-IDF, Glove e word2vec . Si presentano in seguito i modelli del percettrone e delle reti neurali feedforward. Nell'ambito del deep learning viene approfondito l'uso dell'operatore di convoluzione. Per quanto riguarda l'applicazione ai dati è stato necessario gestire lo sbilanciamento del dataset originario tramite undersampling o inserendo dei pesi a livello di classe. In accordo con la letteratura di riferimento, la scelta del modello si basa sull'indicatore F1. Oltre alle tecniche di text mining l'elaborato introduce la regressione beta nell'ambito della gestione di variabili a range limitato confrontando tale modello con una regressione lineare in cui la variabilie risposta viene trasformata tramite logit. Infine si lascia spazio ad alcune considerazioni sull'utilizzo di tecniche di deep learning presentandone limiti e vantaggi. Alcune possibili estensioni sono inoltre individuate nella possibilità di rappresentare il corpus tramite strutture a grafo, sfruttando una rappresentazione del dato al di fuori degli spazi Euclidei. Si apre dunque alla possibilità di utilizzare tecniche quali Graph Convolutional Network o SVM per la classificazione semi-supervisionata dei nodi.File | Dimensione | Formato | |
---|---|---|---|
806591_tesi_cucco_alex.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.85 MB
Formato
Adobe PDF
|
1.85 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/50789