In questa tesi si affronta il tema della Text Classification, proponendo, e illustrandone la verifica sperimentale, un nuovo classificatore, costruito a partire da due tipologie differenti di classificatori. Il classificatore ¿di partenza¿ è un algoritmo di classificazione ¿non standard¿ (semplicemente poiché non appartenente a nessun metodo classico, dell'apprendimento supervisionato), detto BCN Best Compression Neighbour, e basato su algoritmi di compressione dell'informazione. D'altro canto il classificatore individuato a essere combinato con il sopra accennato BCN, è detto ¿metodo di Rocchio¿. Il ¿metodo di Rocchio¿ è un classificatore, che, nel solco dell'approccio machine learning, costruisce, per induzione, un modello. Questo metodo tuttavia, non è particolarmente usato nell'apprendimento supervisionato, se non di dati testuali, e affonda le sue radici negli studi dell' Information Retrieval sulle metodologie di modificazione delle query nell'ambito di sistemi di recupero automatico dei documenti (attualmente parleremmo di motori di ricerca). L'idea alla base di questo ensemble, è stata quella di usare la misura di distanza computata dal BCN, tra i documenti di un set di training, come euristica per l'individuazione di elementi ¿Near Positive¿, cioè elementi per cui è facile che un classificatore abbia dei falsi positivi, con cui addestrare Rocchio.
Text Categorization: estensione del modello vettoriale con schemi di classificazione basati sulla compressione.
CISCI, MATTEO
2013/2014
Abstract
In questa tesi si affronta il tema della Text Classification, proponendo, e illustrandone la verifica sperimentale, un nuovo classificatore, costruito a partire da due tipologie differenti di classificatori. Il classificatore ¿di partenza¿ è un algoritmo di classificazione ¿non standard¿ (semplicemente poiché non appartenente a nessun metodo classico, dell'apprendimento supervisionato), detto BCN Best Compression Neighbour, e basato su algoritmi di compressione dell'informazione. D'altro canto il classificatore individuato a essere combinato con il sopra accennato BCN, è detto ¿metodo di Rocchio¿. Il ¿metodo di Rocchio¿ è un classificatore, che, nel solco dell'approccio machine learning, costruisce, per induzione, un modello. Questo metodo tuttavia, non è particolarmente usato nell'apprendimento supervisionato, se non di dati testuali, e affonda le sue radici negli studi dell' Information Retrieval sulle metodologie di modificazione delle query nell'ambito di sistemi di recupero automatico dei documenti (attualmente parleremmo di motori di ricerca). L'idea alla base di questo ensemble, è stata quella di usare la misura di distanza computata dal BCN, tra i documenti di un set di training, come euristica per l'individuazione di elementi ¿Near Positive¿, cioè elementi per cui è facile che un classificatore abbia dei falsi positivi, con cui addestrare Rocchio.File | Dimensione | Formato | |
---|---|---|---|
202499_tesi202499.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
814.74 kB
Formato
Adobe PDF
|
814.74 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/158165