In questa relazione viene descritto quanto svolto durante il tirocinio presso Sprint Reply, in particolare viene riportato uno studio comparativo su diversi approcci per il problema della topic extraction, ovvero l'estrazione dell’argomento principale da un documento o un insieme di documenti. Sono stati confrontati diversi approcci per risolvere questo problema, tra cui l'utilizzo di modelli di clustering, di modelli basati sulla probabilità (LDA, LSA) e di modelli basati sull'apprendimento automatico (reti neurali e transformer). Per valutare l'efficacia di questi approcci, sono stati utilizzati diversi dataset, sia pubblici che privati. I risultati ottenuti mostrano che i modelli basati sull'apprendimento automatico, in particolare i modelli transformer, sono stati i più performanti in termini di accuratezza, rispetto agli altri approcci. Nella relazione viene inoltre descritto un altro lavoro svolto durante il periodo di tirocinio, anch’esso legato all’elaborazione del linguaggio naturale e in particolare all’estrazione di dati da documenti attraverso l’uso di modelli di object detection (per estrarre i dati da tabelle strutturate) e di Named Entity Recognition (per estrarre dati da documenti testuali).
Analisi comparativa di tecniche di topic extraction: una valutazione di modelli tradizionali, modelli di apprendimento automatico e modelli transformer
BERSANO BEGEY, ENRICO
2021/2022
Abstract
In questa relazione viene descritto quanto svolto durante il tirocinio presso Sprint Reply, in particolare viene riportato uno studio comparativo su diversi approcci per il problema della topic extraction, ovvero l'estrazione dell’argomento principale da un documento o un insieme di documenti. Sono stati confrontati diversi approcci per risolvere questo problema, tra cui l'utilizzo di modelli di clustering, di modelli basati sulla probabilità (LDA, LSA) e di modelli basati sull'apprendimento automatico (reti neurali e transformer). Per valutare l'efficacia di questi approcci, sono stati utilizzati diversi dataset, sia pubblici che privati. I risultati ottenuti mostrano che i modelli basati sull'apprendimento automatico, in particolare i modelli transformer, sono stati i più performanti in termini di accuratezza, rispetto agli altri approcci. Nella relazione viene inoltre descritto un altro lavoro svolto durante il periodo di tirocinio, anch’esso legato all’elaborazione del linguaggio naturale e in particolare all’estrazione di dati da documenti attraverso l’uso di modelli di object detection (per estrarre i dati da tabelle strutturate) e di Named Entity Recognition (per estrarre dati da documenti testuali).File | Dimensione | Formato | |
---|---|---|---|
912678_relazione_tirocinio___enrico_bersano_begey_912678.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.74 MB
Formato
Adobe PDF
|
1.74 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/135642