The Italian Sign Language (LIS) is the natural language used by the Italian Deaf community. Numerous studies have been made on its features. This thesis wants to contribute to sign language research by providing a representation of LIS according to the dependency grammar as described in Universal Dependencies framework, which is currently considered as a de facto standard for a large variety of spoken languages. The visual-manual modality of LIS creates challenges in segmentation, annotation and analysis. Therefore, the goals of this study are to determine if the UD standard is suitable for LIS annotation and if the models of sentence structures analysis developed for spoken Italian and Swedish Sign Language (SSL) can adapt to LIS. The process was carried out as follows: two videos from the storytelling domain were first annotated on the ELAN platform, the data was then converted into CoNLL-U format for syntactic dependency structure analysis. The examination was based on the approaches used in Italian and SSL treebanks as well as language-specific strategies which were developed specifically for LIS. This combination of pre-existing and language-specific strategies proved to be the most adequate for LIS analysis. Further research is required on this topic to expand the amount of data to include in the treebank and to identify further peculiarities of LIS and annotation techniques. ​
La lingua dei segni italiana (LIS) è la lingua naturale utilizzata dalla Comunità Sorda in Italia. Diversi studi sono già stati condotti sulle caratteristiche della LIS. Questa tesi nasce dal desiderio di contribuire alle ricerche in tale ambito, offrendo una rappresentazione di questa lingua conforme alla grammatica a dipendenze descritta secondo il modello delle Universal Dependencies, ritenuto attualmente uno standard de facto per un'ampia varietà di lingue parlate. La modalità comunicativa visivo-gestuale della LIS pone delle sfide nei processi di segmentazione, annotazione e analisi. Di conseguenza, l'obiettivo di questa ricerca è quello di stabilire se lo standard creato da UD possa essere utilizzato per analizzare la LIS, e se le strategie di annotazione adoperate per i treebank della lingua italiana parlata e della lingua dei segni svedese (SSL) possano essere adattati ad essa. Il processo si è sviluppato nel seguente modo: due video, riconducibili all'ambito del racconto, sono stati annotati sulla piattaforma ELAN. I dati così ottenuti sono stati convertiti in dei file in formato CoNLL-U per definire e analizzare le dipendenze sintattiche che si stabiliscono tra i segni. La suddetta analisi si è basata sulle tecniche adoperate per la costruzione dei treebank della lingua italiana parlata e della lingua dei segni svedese presenti sul sito Universal Dependencies, come pure su strategie sviluppate appositamente per la LIS. Questa tecnica si è rivelata la più efficace per lo studio della struttura sintattica della LIS e i risultati ottenuti indicano che lo standard creato da UD può essere adoperato con successo. Ulteriori sviluppi della presente ricerca sono necessari ai fini di espandere i dati analizzati, affinché il treebank non sia limitato ad un solo ambito della LIS e si possa così identificarne le peculiarità e sviluppare di conseguenza specifiche strategie di annotazione.
Le Universal Dependencies per la Lingua dei Segni Italiana: un treebank di testi narrativi
CALIGIORE, GAIA
2019/2020
Abstract
La lingua dei segni italiana (LIS) è la lingua naturale utilizzata dalla Comunità Sorda in Italia. Diversi studi sono già stati condotti sulle caratteristiche della LIS. Questa tesi nasce dal desiderio di contribuire alle ricerche in tale ambito, offrendo una rappresentazione di questa lingua conforme alla grammatica a dipendenze descritta secondo il modello delle Universal Dependencies, ritenuto attualmente uno standard de facto per un'ampia varietà di lingue parlate. La modalità comunicativa visivo-gestuale della LIS pone delle sfide nei processi di segmentazione, annotazione e analisi. Di conseguenza, l'obiettivo di questa ricerca è quello di stabilire se lo standard creato da UD possa essere utilizzato per analizzare la LIS, e se le strategie di annotazione adoperate per i treebank della lingua italiana parlata e della lingua dei segni svedese (SSL) possano essere adattati ad essa. Il processo si è sviluppato nel seguente modo: due video, riconducibili all'ambito del racconto, sono stati annotati sulla piattaforma ELAN. I dati così ottenuti sono stati convertiti in dei file in formato CoNLL-U per definire e analizzare le dipendenze sintattiche che si stabiliscono tra i segni. La suddetta analisi si è basata sulle tecniche adoperate per la costruzione dei treebank della lingua italiana parlata e della lingua dei segni svedese presenti sul sito Universal Dependencies, come pure su strategie sviluppate appositamente per la LIS. Questa tecnica si è rivelata la più efficace per lo studio della struttura sintattica della LIS e i risultati ottenuti indicano che lo standard creato da UD può essere adoperato con successo. Ulteriori sviluppi della presente ricerca sono necessari ai fini di espandere i dati analizzati, affinché il treebank non sia limitato ad un solo ambito della LIS e si possa così identificarne le peculiarità e sviluppare di conseguenza specifiche strategie di annotazione.File | Dimensione | Formato | |
---|---|---|---|
905229_tesi_caligiore.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
3 MB
Formato
Adobe PDF
|
3 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/50995