Nel campo dell’elaborazione del linguaggio naturale (NLP) uno dei task più utilizzati è quello di Named-Entity Recognition (NER), che consiste nell’estrarre dal testo alcune informazioni chiave, chiamate entità. Da sole però queste informazioni non sono sufficienti per comprendere e sfruttare quanto ottenuto. Sono dunque fondamentali anche i task di Relation Extraction (RE) e Entity Linking (EL) per estrarre relazioni presenti tra le entità e collegare ad esse un identificativo univoco per evitare ambiguità. Questo è il presupposto del progetto che ho realizzato durante lo stage presso Sprint Reply s.r.l. a Torino. In questa tesi, dopo un’introduzione all’elaborazione del linguaggio naturale, viene raccontato quanto svolto in questo stage. Per ogni task viene prima fatta un’introduzione teorica, seguita dal suo stato dell’arte, per poi procedere alla descrizione dell’implementazione dei modelli scelti, che verranno poi confrontati dal punto di vista dell’accuratezza svolgendo dei test sul dataset “FilmTV movies dataset”, dopo un processo di miglioramento. Oltre ai task precedentemente nominati, è stato introdotto nella pipeline anche il task di Coreference Resolution, data la sua importanza. Infine, viene trattato il mio contributo alla realizzazione di un programma per un cliente in questo campo: l’estrazione dell’indicatore sulla percentuale di risorse non rinnovabili consumate da dei report aziendali sulla sostenibilità.
Definizione di un approccio standard per l'esecuzione di relation extraction e entity linking nell'elaborazione del linguaggio naturale
FUMIENTO, GIULIA LUISA
2022/2023
Abstract
Nel campo dell’elaborazione del linguaggio naturale (NLP) uno dei task più utilizzati è quello di Named-Entity Recognition (NER), che consiste nell’estrarre dal testo alcune informazioni chiave, chiamate entità. Da sole però queste informazioni non sono sufficienti per comprendere e sfruttare quanto ottenuto. Sono dunque fondamentali anche i task di Relation Extraction (RE) e Entity Linking (EL) per estrarre relazioni presenti tra le entità e collegare ad esse un identificativo univoco per evitare ambiguità. Questo è il presupposto del progetto che ho realizzato durante lo stage presso Sprint Reply s.r.l. a Torino. In questa tesi, dopo un’introduzione all’elaborazione del linguaggio naturale, viene raccontato quanto svolto in questo stage. Per ogni task viene prima fatta un’introduzione teorica, seguita dal suo stato dell’arte, per poi procedere alla descrizione dell’implementazione dei modelli scelti, che verranno poi confrontati dal punto di vista dell’accuratezza svolgendo dei test sul dataset “FilmTV movies dataset”, dopo un processo di miglioramento. Oltre ai task precedentemente nominati, è stato introdotto nella pipeline anche il task di Coreference Resolution, data la sua importanza. Infine, viene trattato il mio contributo alla realizzazione di un programma per un cliente in questo campo: l’estrazione dell’indicatore sulla percentuale di risorse non rinnovabili consumate da dei report aziendali sulla sostenibilità.File | Dimensione | Formato | |
---|---|---|---|
914862_tesifumientogiulialuisa.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.96 MB
Formato
Adobe PDF
|
1.96 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/109249