In questa tesi si affronta il tema della Text Classification, proponendo, e illustrandone la verifica sperimentale, un nuovo classificatore, costruito a partire da due tipologie differenti di classificatori. Il classificatore ¿di partenza¿ è un algoritmo di classificazione ¿non standard¿ (semplicemente poiché non appartenente a nessun metodo classico, dell'apprendimento supervisionato), detto BCN Best Compression Neighbour, e basato su algoritmi di compressione dell'informazione. D'altro canto il classificatore individuato a essere combinato con il sopra accennato BCN, è detto ¿metodo di Rocchio¿. Il ¿metodo di Rocchio¿ è un classificatore, che, nel solco dell'approccio machine learning, costruisce, per induzione, un modello. Questo metodo tuttavia, non è particolarmente usato nell'apprendimento supervisionato, se non di dati testuali, e affonda le sue radici negli studi dell' Information Retrieval sulle metodologie di modificazione delle query nell'ambito di sistemi di recupero automatico dei documenti (attualmente parleremmo di motori di ricerca). L'idea alla base di questo ensemble, è stata quella di usare la misura di distanza computata dal BCN, tra i documenti di un set di training, come euristica per l'individuazione di elementi ¿Near Positive¿, cioè elementi per cui è facile che un classificatore abbia dei falsi positivi, con cui addestrare Rocchio.

Text Categorization: estensione del modello vettoriale con schemi di classificazione basati sulla compressione.

CISCI, MATTEO
2013/2014

Abstract

In questa tesi si affronta il tema della Text Classification, proponendo, e illustrandone la verifica sperimentale, un nuovo classificatore, costruito a partire da due tipologie differenti di classificatori. Il classificatore ¿di partenza¿ è un algoritmo di classificazione ¿non standard¿ (semplicemente poiché non appartenente a nessun metodo classico, dell'apprendimento supervisionato), detto BCN Best Compression Neighbour, e basato su algoritmi di compressione dell'informazione. D'altro canto il classificatore individuato a essere combinato con il sopra accennato BCN, è detto ¿metodo di Rocchio¿. Il ¿metodo di Rocchio¿ è un classificatore, che, nel solco dell'approccio machine learning, costruisce, per induzione, un modello. Questo metodo tuttavia, non è particolarmente usato nell'apprendimento supervisionato, se non di dati testuali, e affonda le sue radici negli studi dell' Information Retrieval sulle metodologie di modificazione delle query nell'ambito di sistemi di recupero automatico dei documenti (attualmente parleremmo di motori di ricerca). L'idea alla base di questo ensemble, è stata quella di usare la misura di distanza computata dal BCN, tra i documenti di un set di training, come euristica per l'individuazione di elementi ¿Near Positive¿, cioè elementi per cui è facile che un classificatore abbia dei falsi positivi, con cui addestrare Rocchio.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
202499_tesi202499.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 814.74 kB
Formato Adobe PDF
814.74 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/158165