In questa relazione viene descritto quanto svolto durante il tirocinio presso Sprint Reply, in particolare viene riportato uno studio comparativo su diversi approcci per il problema della topic extraction, ovvero l'estrazione dell’argomento principale da un documento o un insieme di documenti. Sono stati confrontati diversi approcci per risolvere questo problema, tra cui l'utilizzo di modelli di clustering, di modelli basati sulla probabilità (LDA, LSA) e di modelli basati sull'apprendimento automatico (reti neurali e transformer). Per valutare l'efficacia di questi approcci, sono stati utilizzati diversi dataset, sia pubblici che privati. I risultati ottenuti mostrano che i modelli basati sull'apprendimento automatico, in particolare i modelli transformer, sono stati i più performanti in termini di accuratezza, rispetto agli altri approcci. Nella relazione viene inoltre descritto un altro lavoro svolto durante il periodo di tirocinio, anch’esso legato all’elaborazione del linguaggio naturale e in particolare all’estrazione di dati da documenti attraverso l’uso di modelli di object detection (per estrarre i dati da tabelle strutturate) e di Named Entity Recognition (per estrarre dati da documenti testuali).

Analisi comparativa di tecniche di topic extraction: una valutazione di modelli tradizionali, modelli di apprendimento automatico e modelli transformer

BERSANO BEGEY, ENRICO
2021/2022

Abstract

In questa relazione viene descritto quanto svolto durante il tirocinio presso Sprint Reply, in particolare viene riportato uno studio comparativo su diversi approcci per il problema della topic extraction, ovvero l'estrazione dell’argomento principale da un documento o un insieme di documenti. Sono stati confrontati diversi approcci per risolvere questo problema, tra cui l'utilizzo di modelli di clustering, di modelli basati sulla probabilità (LDA, LSA) e di modelli basati sull'apprendimento automatico (reti neurali e transformer). Per valutare l'efficacia di questi approcci, sono stati utilizzati diversi dataset, sia pubblici che privati. I risultati ottenuti mostrano che i modelli basati sull'apprendimento automatico, in particolare i modelli transformer, sono stati i più performanti in termini di accuratezza, rispetto agli altri approcci. Nella relazione viene inoltre descritto un altro lavoro svolto durante il periodo di tirocinio, anch’esso legato all’elaborazione del linguaggio naturale e in particolare all’estrazione di dati da documenti attraverso l’uso di modelli di object detection (per estrarre i dati da tabelle strutturate) e di Named Entity Recognition (per estrarre dati da documenti testuali).
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
912678_relazione_tirocinio___enrico_bersano_begey_912678.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.74 MB
Formato Adobe PDF
1.74 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/135642