La seguente trattazione si pone nell'ambito del Natural Language Processing: il processo di trattamento automatico delle informazioni scritte o parlate in una lingua naturale. L'obiettivo del lavoro svolto, e qui descritto, è l'annotazione automatica di relazioni semantiche tra le parole di una frase. Per svolgere il task è stata implementata una rete neurale ricorrente di nome Semtag. Quest'ultima viene allenata con le informazioni contenute in Semagram, risorsa linguistica, che definisce il significato delle parole in termini di informazioni semantiche, da cui deriva il nome della rete. Una prima versione di Semtag annota frasi provenienti dalla sola lingua inglese. In seguito, la rete è stata ampliata riuscendo a gestire input provenienti da lingue differenti. Ciò è stato reso possibile utilizzando Babelnet, che descrive concetti e voci enciclopediche lessicalizzate in molte lingue e codificate tramite un identificativo univoco. I set di training, validation e test utilizzati provengono da SenseDefs: un corpus su larga scala di alta qualità di definizioni disambiguate in più lingue. Le performance migliori di Semtag si ottengono attraverso embedding dei concetti ottenuti dai vettori pre-allenati di SenseEmbed, contenenti le informazioni relative a proprietà sintattiche e semantiche dei termini.

Semtag: una rete neurale per l'annotazione multiligue di relazioni semantiche

DEPERTE, FRANCESCA
2019/2020

Abstract

La seguente trattazione si pone nell'ambito del Natural Language Processing: il processo di trattamento automatico delle informazioni scritte o parlate in una lingua naturale. L'obiettivo del lavoro svolto, e qui descritto, è l'annotazione automatica di relazioni semantiche tra le parole di una frase. Per svolgere il task è stata implementata una rete neurale ricorrente di nome Semtag. Quest'ultima viene allenata con le informazioni contenute in Semagram, risorsa linguistica, che definisce il significato delle parole in termini di informazioni semantiche, da cui deriva il nome della rete. Una prima versione di Semtag annota frasi provenienti dalla sola lingua inglese. In seguito, la rete è stata ampliata riuscendo a gestire input provenienti da lingue differenti. Ciò è stato reso possibile utilizzando Babelnet, che descrive concetti e voci enciclopediche lessicalizzate in molte lingue e codificate tramite un identificativo univoco. I set di training, validation e test utilizzati provengono da SenseDefs: un corpus su larga scala di alta qualità di definizioni disambiguate in più lingue. Le performance migliori di Semtag si ottengono attraverso embedding dei concetti ottenuti dai vettori pre-allenati di SenseEmbed, contenenti le informazioni relative a proprietà sintattiche e semantiche dei termini.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
905332_tesi_deperte_segreteria.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 3.68 MB
Formato Adobe PDF
3.68 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/29635