Text Categorization: estensione del modello vettoriale con schemi di classificazione basati sulla compressione.

In questa tesi si affronta il tema della Text Classification, proponendo, e illustrandone la verifica sperimentale, un nuovo classificatore, costruito a partire da due tipologie differenti di classificatori. Il classificatore ¿di partenza¿ è un algoritmo di classificazione ¿non standard¿ (semplicemente poiché non appartenente a nessun metodo classico, dell'apprendimento supervisionato), detto BCN Best Compression Neighbour, e basato su algoritmi di compressione dell'informazione. D'altro canto il classificatore individuato a essere combinato con il sopra accennato BCN, è detto ¿metodo di Rocchio¿. Il ¿metodo di Rocchio¿ è un classificatore, che, nel solco dell'approccio machine learning, costruisce, per induzione, un modello. Questo metodo tuttavia, non è particolarmente usato nell'apprendimento supervisionato, se non di dati testuali, e affonda le sue radici negli studi dell' Information Retrieval sulle metodologie di modificazione delle query nell'ambito di sistemi di recupero automatico dei documenti (attualmente parleremmo di motori di ricerca). L'idea alla base di questo ensemble, è stata quella di usare la misura di distanza computata dal BCN, tra i documenti di un set di training, come euristica per l'individuazione di elementi ¿Near Positive¿, cioè elementi per cui è facile che un classificatore abbia dei falsi positivi, con cui addestrare Rocchio.

Text Categorization: estensione del modello vettoriale con schemi di classificazione basati sulla compressione.

CISCI, MATTEO

2013/2014

Abstract

In questa tesi si affronta il tema della Text Classification, proponendo, e illustrandone la verifica sperimentale, un nuovo classificatore, costruito a partire da due tipologie differenti di classificatori. Il classificatore ¿di partenza¿ è un algoritmo di classificazione ¿non standard¿ (semplicemente poiché non appartenente a nessun metodo classico, dell'apprendimento supervisionato), detto BCN Best Compression Neighbour, e basato su algoritmi di compressione dell'informazione. D'altro canto il classificatore individuato a essere combinato con il sopra accennato BCN, è detto ¿metodo di Rocchio¿. Il ¿metodo di Rocchio¿ è un classificatore, che, nel solco dell'approccio machine learning, costruisce, per induzione, un modello. Questo metodo tuttavia, non è particolarmente usato nell'apprendimento supervisionato, se non di dati testuali, e affonda le sue radici negli studi dell' Information Retrieval sulle metodologie di modificazione delle query nell'ambito di sistemi di recupero automatico dei documenti (attualmente parleremmo di motori di ricerca). L'idea alla base di questo ensemble, è stata quella di usare la misura di distanza computata dal BCN, tra i documenti di un set di training, come euristica per l'individuazione di elementi ¿Near Positive¿, cioè elementi per cui è facile che un classificatore abbia dei falsi positivi, con cui addestrare Rocchio.

Scheda breve

	Facoltà/Dipartimento
	
				INFORMATICA
			
	Corso di studio
	
				INFORMATICA
			
	Lingua
	
				ITA
			
	Relatrice / Relatore
	
				RADICIONI, Daniele Paolo
			
	Modalità consultazione tesi
	
				IMPORT DA TESIONLINE
			
	Appare nelle tipologie:
	
				Corso di Laurea Magistrale

File in questo prodotto:

File	Dimensione	Formato
202499_tesi202499.pdf non disponibili Tipologia: Altro materiale allegato Dimensione 814.74 kB Formato Adobe PDF	814.74 kB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/158165