Analisi comparativa di tecniche di topic extraction: una valutazione di modelli tradizionali, modelli di apprendimento automatico e modelli transformer

In questa relazione viene descritto quanto svolto durante il tirocinio presso Sprint Reply, in particolare viene riportato uno studio comparativo su diversi approcci per il problema della topic extraction, ovvero l'estrazione dell’argomento principale da un documento o un insieme di documenti. Sono stati confrontati diversi approcci per risolvere questo problema, tra cui l'utilizzo di modelli di clustering, di modelli basati sulla probabilità (LDA, LSA) e di modelli basati sull'apprendimento automatico (reti neurali e transformer). Per valutare l'efficacia di questi approcci, sono stati utilizzati diversi dataset, sia pubblici che privati. I risultati ottenuti mostrano che i modelli basati sull'apprendimento automatico, in particolare i modelli transformer, sono stati i più performanti in termini di accuratezza, rispetto agli altri approcci. Nella relazione viene inoltre descritto un altro lavoro svolto durante il periodo di tirocinio, anch’esso legato all’elaborazione del linguaggio naturale e in particolare all’estrazione di dati da documenti attraverso l’uso di modelli di object detection (per estrarre i dati da tabelle strutturate) e di Named Entity Recognition (per estrarre dati da documenti testuali).

Analisi comparativa di tecniche di topic extraction: una valutazione di modelli tradizionali, modelli di apprendimento automatico e modelli transformer

BERSANO BEGEY, ENRICO

2021/2022

Abstract

In questa relazione viene descritto quanto svolto durante il tirocinio presso Sprint Reply, in particolare viene riportato uno studio comparativo su diversi approcci per il problema della topic extraction, ovvero l'estrazione dell’argomento principale da un documento o un insieme di documenti. Sono stati confrontati diversi approcci per risolvere questo problema, tra cui l'utilizzo di modelli di clustering, di modelli basati sulla probabilità (LDA, LSA) e di modelli basati sull'apprendimento automatico (reti neurali e transformer). Per valutare l'efficacia di questi approcci, sono stati utilizzati diversi dataset, sia pubblici che privati. I risultati ottenuti mostrano che i modelli basati sull'apprendimento automatico, in particolare i modelli transformer, sono stati i più performanti in termini di accuratezza, rispetto agli altri approcci. Nella relazione viene inoltre descritto un altro lavoro svolto durante il periodo di tirocinio, anch’esso legato all’elaborazione del linguaggio naturale e in particolare all’estrazione di dati da documenti attraverso l’uso di modelli di object detection (per estrarre i dati da tabelle strutturate) e di Named Entity Recognition (per estrarre dati da documenti testuali).

Scheda breve

	Facoltà/Dipartimento
	
				INFORMATICA
			
	Corso di studio
	
				INFORMATICA
			
	Lingua
	
				ITA
			
	Relatrice / Relatore
	
				DI CARO, Luigi
			
	Modalità consultazione tesi
	
				IMPORT DA TESIONLINE
			
	Appare nelle tipologie:
	
				Corso di Laurea

File in questo prodotto:

File	Dimensione	Formato
912678_relazione_tirocinio___enrico_bersano_begey_912678.pdf non disponibili Tipologia: Altro materiale allegato Dimensione 1.74 MB Formato Adobe PDF	1.74 MB	Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/135642