The task of topic classification consists in mapping text into a set of semantically meaningful labels, i.e. Topics. Topics are known beforehand and, in the standard setting, machine learning algorithms can be trained to assign the correct ones to a piece of text. However, in the Zero-Shot setting, a subset of these topics is not seen at training time, challenging the model to classify corresponding examples using additional information. In recent years, with the huge amount of new topics and textual data that everyday flood social media and, in general, the internet, a Zero-Shot classifier able to make prediction with little to no prior training on the topics is key to efficiently perform this task without resorting to constant adjustments of the model in use. The focus of this thesis is to show how Zero-Shot classification systems can perform without any training on any given dataset by mapping text and topics into the same semantic vector space where they can be compared, based on a pre-trained text-embedder (MPNet), comparing semantic spaces of texts with those of the labels. Moreover, the main goal of the work done was to demonstrate that these semantic spaces are better aligned when their dimension is reduced, keeping only the most useful information: Finally, our method is applied to the hazard detection task on Tweets. Experiments were conducted using three benchmark datasets: DBPedia, with 14 classes; Yahoo answer, with 10 classes; Lexglue/Ledgar, with 100 classes. The different dimensionality reduction techniques tested were a linear projection model, PCA and an Autoencoder. Using the macro f-score as the standard metric, it was found that PCA is the best performing technique, recording an improvement of 6.1%, 13.9%, 6% for the three datasets in comparison with the performance on the raw (without dimensionality reduction) MPNet semantic spaces representation.
Il compito della classificazione dei "topic" consiste nella predizione automatica del topic di riferimento di un certo esempio: questi topic, o argomenti, sono appresi durante l'addestramento di un modello di machine learning. Nell'apprendimento zero-shot un sottoinsieme di questi argomenti non è visto durante l'apprendimento, obbligando il modello a classificare esempi appartenenti a queste classi attraverso l'uso di informazioni aggiuntive. Negli ultimi anni, con il grande volume di dati testuali e argomenti associati che inondano il web e i social media, un classificatore zero-shot in grado di predirli senza informazioni a priori è fondamentale per effettuare questo compito in modo efficiente senza dover ricorrere a ri-addestramenti di modelli già in uso. Il focus di questa tesi è il dimostrare come sistemi Zero-shot possano performare senza alcun addestramento e senza alcuna conoscenza del dataset; semplicemente confrontando gli spazi semantici dei testi e delle etichette usando, spazi costruiti usando un sentence embedder pre-addestrato (MPNet). Inoltre, verrà dimostrata l'ipotesi che questi spazi semantici sono allineati meglio quando il numero di dimensioni è ridotto, considerando solo le informazioni più utili: infine il sistema è applicato al caso di studio dei tweets a tema disastri naturali. Gli esperimenti son stati fatti utilizzando tre benchmark: DBpedia con 14 classi, Yahoo answer con 10 classi, Lexglue/Ledgar con 100 classi. Le tecniche di riduzione utilizzate son state un modello lineare, PCA e un autoencoder. Usando il macro f-score come metrica standard, si è scoperto che PCA è la migliore, con dei miglioramenti registrati del 6.1%, 13.9% e 6% rispetto alle performance sugli spazi semantici calcolati con il solo MPNet.
Classificazione Zero-Shot di topic nel linguaggio naturale.
RONDINELLI, ANDREA
2020/2021
Abstract
Il compito della classificazione dei "topic" consiste nella predizione automatica del topic di riferimento di un certo esempio: questi topic, o argomenti, sono appresi durante l'addestramento di un modello di machine learning. Nell'apprendimento zero-shot un sottoinsieme di questi argomenti non è visto durante l'apprendimento, obbligando il modello a classificare esempi appartenenti a queste classi attraverso l'uso di informazioni aggiuntive. Negli ultimi anni, con il grande volume di dati testuali e argomenti associati che inondano il web e i social media, un classificatore zero-shot in grado di predirli senza informazioni a priori è fondamentale per effettuare questo compito in modo efficiente senza dover ricorrere a ri-addestramenti di modelli già in uso. Il focus di questa tesi è il dimostrare come sistemi Zero-shot possano performare senza alcun addestramento e senza alcuna conoscenza del dataset; semplicemente confrontando gli spazi semantici dei testi e delle etichette usando, spazi costruiti usando un sentence embedder pre-addestrato (MPNet). Inoltre, verrà dimostrata l'ipotesi che questi spazi semantici sono allineati meglio quando il numero di dimensioni è ridotto, considerando solo le informazioni più utili: infine il sistema è applicato al caso di studio dei tweets a tema disastri naturali. Gli esperimenti son stati fatti utilizzando tre benchmark: DBpedia con 14 classi, Yahoo answer con 10 classi, Lexglue/Ledgar con 100 classi. Le tecniche di riduzione utilizzate son state un modello lineare, PCA e un autoencoder. Usando il macro f-score come metrica standard, si è scoperto che PCA è la migliore, con dei miglioramenti registrati del 6.1%, 13.9% e 6% rispetto alle performance sugli spazi semantici calcolati con il solo MPNet. File | Dimensione | Formato | |
---|---|---|---|
834560_rondinelli_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
2.76 MB
Formato
Adobe PDF
|
2.76 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/69548