In the field of Natural Language Processing, the presence of computationally usable lexicographic resources that encode semantically valid knowledge is of fundamental importance. Those mainly used define concepts and lexical relationships between them, starting from a manual construction work (WordNet, Open Multilingual Wordnet, FrameNet, VerbNet) or from a mapping on web resources that contain structured knowledge but not suitable for computational use (as in the case of BabelNet, which exploits information from Wikipedia and other resources to create lexicalized concepts in over 500 languages and links them starting from the WordNet structure, extending it). Starting from the concepts defined in them, textual corpora (for example SemCor) were annotated to provide semantically identifiable information to the creators of computational models for word sense disambiguation and other disciplines practiced in the NLP field. On the web, however, there are larger corpora in which much more diversified information can be found, but only of syntactic nature, therefore ambiguous. In this thesis project, an innovative approach to disambiguation of syntactic information based on multilingual alignments between terms deriving from corpora not semantically annotated is proposed, in order to create a multilingual lexicographic resource that contains automatically disambiguous and therefore semantically valid information, around concepts lexicalized in different languages and with a reference to their respective meanings. It is our belief that with this approach knowledge relationships that are not present in any of the currently existing lexicographic resources can be created, precisely due to the different nature of the approach we use. Furthermore, the bias of association of meanings deriving from the use of a single language can be eliminated, in order to have valid information not only in a certain socio-cultural context.

Nel campo del Natural Language Processing è di fondamentale importanza la presenza di risorse lessicografiche utilizzabili computazionalmente che codifichino conoscenza semanticamente valida. Quelle principalmente utlizzate definiscono i concetti e le relazioni lessicali tra di essi, a partire da un lavoro di costruzione manuale (WordNet, Open Multilingual Wordnet, FrameNet, VerbNet) oppure da un mapping su risorse web che contengono conoscenza strutturata ma non adatta ad un utilizzo computazionale (come nel caso di BabelNet, che sfrutta l’informazione di Wikipedia e altre risorse per creare concetti lessicalizzati in oltre 500 lingue e li mette in relazione a partire dalla struttura di WordNet, ampliandola). A partire dai concetti definiti in esse sono stati annotati dei corpora testuali (ad esempio SemCor) per fornire informazione identificabile semanticamente ai creatori di modelli computazionali per la disambiguazione lessicale ed altre discipline praticate in ambito NLP. Sul web sono però presenti dei corpora più ampi nei quali si può trovare informazione molto più diversificata, ma solo di natura sintattica, dunque ambigua. In questo progetto di tesi viene proposto un approccio innovativo di disambiguazione di informazione sintattica basato su allineamenti multilinguistici tra termini derivanti da corpora non annotati semanticamente, allo scopo di creare una risorsa lessicografica multilingue che contenga informazione automaticamente disambiguata e dunque semanticamente valida, intorno a dei concetti lessicalizzati nelle diverse lingue e con un riferimento ai rispettivi significati. È nostra convinzione il fatto che con questo approccio possano essere create relazioni di conoscenza che non sono presenti in nessuna delle risorse lessicografiche attualmente esistenti, proprio per la natura diversa dell’approccio da noi utilizzato. Inoltre, il bias di associazione di significati derivante dall’utilizzo di una singola lingua può essere eliminato, in modo da avere dell’informazione valida non solo in un certo contesto socio-culturale.

Codifica semi-supervisionata di conoscenza semantica prototipica basata su allineamenti multilinguistici

LOVERA RULFI, VLADIMIRO
2020/2021

Abstract

Nel campo del Natural Language Processing è di fondamentale importanza la presenza di risorse lessicografiche utilizzabili computazionalmente che codifichino conoscenza semanticamente valida. Quelle principalmente utlizzate definiscono i concetti e le relazioni lessicali tra di essi, a partire da un lavoro di costruzione manuale (WordNet, Open Multilingual Wordnet, FrameNet, VerbNet) oppure da un mapping su risorse web che contengono conoscenza strutturata ma non adatta ad un utilizzo computazionale (come nel caso di BabelNet, che sfrutta l’informazione di Wikipedia e altre risorse per creare concetti lessicalizzati in oltre 500 lingue e li mette in relazione a partire dalla struttura di WordNet, ampliandola). A partire dai concetti definiti in esse sono stati annotati dei corpora testuali (ad esempio SemCor) per fornire informazione identificabile semanticamente ai creatori di modelli computazionali per la disambiguazione lessicale ed altre discipline praticate in ambito NLP. Sul web sono però presenti dei corpora più ampi nei quali si può trovare informazione molto più diversificata, ma solo di natura sintattica, dunque ambigua. In questo progetto di tesi viene proposto un approccio innovativo di disambiguazione di informazione sintattica basato su allineamenti multilinguistici tra termini derivanti da corpora non annotati semanticamente, allo scopo di creare una risorsa lessicografica multilingue che contenga informazione automaticamente disambiguata e dunque semanticamente valida, intorno a dei concetti lessicalizzati nelle diverse lingue e con un riferimento ai rispettivi significati. È nostra convinzione il fatto che con questo approccio possano essere create relazioni di conoscenza che non sono presenti in nessuna delle risorse lessicografiche attualmente esistenti, proprio per la natura diversa dell’approccio da noi utilizzato. Inoltre, il bias di associazione di significati derivante dall’utilizzo di una singola lingua può essere eliminato, in modo da avere dell’informazione valida non solo in un certo contesto socio-culturale.
ITA
In the field of Natural Language Processing, the presence of computationally usable lexicographic resources that encode semantically valid knowledge is of fundamental importance. Those mainly used define concepts and lexical relationships between them, starting from a manual construction work (WordNet, Open Multilingual Wordnet, FrameNet, VerbNet) or from a mapping on web resources that contain structured knowledge but not suitable for computational use (as in the case of BabelNet, which exploits information from Wikipedia and other resources to create lexicalized concepts in over 500 languages and links them starting from the WordNet structure, extending it). Starting from the concepts defined in them, textual corpora (for example SemCor) were annotated to provide semantically identifiable information to the creators of computational models for word sense disambiguation and other disciplines practiced in the NLP field. On the web, however, there are larger corpora in which much more diversified information can be found, but only of syntactic nature, therefore ambiguous. In this thesis project, an innovative approach to disambiguation of syntactic information based on multilingual alignments between terms deriving from corpora not semantically annotated is proposed, in order to create a multilingual lexicographic resource that contains automatically disambiguous and therefore semantically valid information, around concepts lexicalized in different languages and with a reference to their respective meanings. It is our belief that with this approach knowledge relationships that are not present in any of the currently existing lexicographic resources can be created, precisely due to the different nature of the approach we use. Furthermore, the bias of association of meanings deriving from the use of a single language can be eliminated, in order to have valid information not only in a certain socio-cultural context.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
812778_tesi.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 5.78 MB
Formato Adobe PDF
5.78 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/32668