Over the past fifty years, the field of technology has been developing enormously, and almost every aspect of our daily and professional life has been revolutionized. Teaching is being remodeled too on the basis of the goals achieved and it looks at new frontiers, setting more targeted objectives, shifting the focus depending on the context and the subjects involved, modernizing yesterday's methods, planning those of tomorrow. In such attempts to develop new useful ideas to improve didactic approaches, corpora are making their way in the world of learning, in particular “learner corpora” regarding the study of foreign languages. These are collections of computerized texts that offer the possibility of working with authentic material, which means coming into contact with the language as a living tool and not as a fixed construct created according to predetermined schemes. Targeted queries, comparisons of texts in different languages, analyses of native texts are possible and easy to conduct; in fact, corpora are available to users of various kinds, from linguists to teachers and students of foreign languages or to those interested in studying in depth their language system. It should be emphasized that corpora are above all an occasion for analysis. In this thesis the work of syntactic annotation, the correction and evaluation of errors on a sample of sixteen texts selected by the VALICO corpus (Corino and Marello, 2017) will be described. First, the texts had been parsed automatically (after a normalization process) using a model UDPipe trained on two treebanks of Universal Dependencies (UD). Then, the provided syntactic annotation has been corrected manually and enhanced with the correction of foreign students' errors. The syntactic annotation scheme used is the same as that of UD and the annotation of errors consisted in writing the target hypotheses (TH) first, and then in applying the tags designed for the VALICO-UD project (Di Nuovo et al., 2019). The texts analyzed in this thesis have been selected following rigorous criteria that consider the factors that cause variations in the interlingua, such as the mother tongue of learners, the number of years they have been studying Italian, the type of production (oral or written), the textual typology . These texts are productions written by German-speaking learners of Italian as a foreign language of the first, second and third year courses, all elicited by one of the five illustrations of VALICO, "Amore". The small treebank thus obtained has stimulated reflections not only on the most common or unexpected errors, but also on the notion of error itself, therefore on what is actually necessary to correct, and on the causes behind the deviance from the target language, always taking account of the variables that can influence the level of knowledge of Italian.
Negli ultimi cinquant'anni si sono fatti passi da gigante nell'ambito della tecnologia, e quasi ogni aspetto della nostra vita quotidiana e professionale è stato rivoluzionato. Anche l'insegnamento si sta rimodellando in base ai traguardi raggiunti e guarda a nuove frontiere, ponendosi obiettivi più mirati, spostando il focus a seconda del contesto e dei soggetti coinvolti, svecchiando i metodi di ieri, elaborando quelli di domani. Ecco che in questo panorama proteso allo sviluppo di nuove idee utili a perfezionare gli approcci di insegnamento si fanno strada i corpora, nello specifico, i corpora di apprendimento (o "learner corpora") per quanto riguarda lo studio delle lingue straniere. Si tratta di raccolte di testi informatizzati che offrono la possibilità di lavorare con materiale autentico, permettendo il contatto con la lingua in quanto strumento vivo e non come costrutto confezionato secondo schemi prestabiliti. Sono possibili ricerche mirate, confronti di testi in diverse lingue del mondo, analisi di testi di nativi alla portata di un clic; i corpora sono a disposizione di utenti di vario genere, a partire dai linguisti fino agli insegnanti e studenti di lingue straniere o per gli interessati ad approfondire il proprio sistema linguistico. Va sottolineato che i corpora sono soprattutto occasione di analisi. In questa tesi verrà descritto il lavoro di annotazione sintattica e di correzione e valutazione degli errori su un campione di sedici testi selezionati dal corpus VALICO (Corino e Marello, 2017). I testi sono stati prima parsificati automaticamente (in seguito a un processo di normalizzazione) attraverso l'uso di un modello UDPipe allenato su due "treebank" attualmente esistenti in Universal Dependencies (UD), poi l'annotazione sintattica così ottenuta è stata corretta manualmente ed è stata arricchita dalla correzione degli errori commessi dagli apprendenti stranieri. Lo schema d'annotazione sintattica utilizzato è quello delle UD e l'annotazione dell'errore ha previsto prima la scrittura delle target hypotheses (TH) e poi l'applicazione delle etichette formulate per il progetto VALICO-UD (Di Nuovo et al., 2019). I testi analizzati in questa tesi sono stati selezionati seguendo criteri rigorosi che tengono in considerazione i fattori di variazione dell'interlingua, come la lingua madre degli apprendenti, l'annualità di studio, il tipo di produzione (orale o scritta), la tipologia testuale. I testi in oggetto sono produzioni scritte di apprendenti tedescofoni di italiano come lingua straniera di tre annualità diverse (prima, seconda e terza), tutti elicitati da una delle cinque vignette di VALICO, "Amore". Il piccolo treebank così ottenuto ha stimolato la riflessione non solo sugli errori più comuni o inaspettati (perché non giustificabili basandosi solo sull'analisi contrastiva tra lingua madre e lingua target), ma anche sulla nozione stessa di errore, e cioè su cosa sia davvero necessario correggere, e sulle cause che stanno dietro alla devianza dalla lingua target, tenendo sempre conto delle variabili che possono influenzare il livello di conoscenza dell'italiano.
Annotazione sintattica e dell'errore in un subcorpus di apprendenti tedescofoni di VALICO
LINGUA, NAUSICAA
2018/2019
Abstract
Negli ultimi cinquant'anni si sono fatti passi da gigante nell'ambito della tecnologia, e quasi ogni aspetto della nostra vita quotidiana e professionale è stato rivoluzionato. Anche l'insegnamento si sta rimodellando in base ai traguardi raggiunti e guarda a nuove frontiere, ponendosi obiettivi più mirati, spostando il focus a seconda del contesto e dei soggetti coinvolti, svecchiando i metodi di ieri, elaborando quelli di domani. Ecco che in questo panorama proteso allo sviluppo di nuove idee utili a perfezionare gli approcci di insegnamento si fanno strada i corpora, nello specifico, i corpora di apprendimento (o "learner corpora") per quanto riguarda lo studio delle lingue straniere. Si tratta di raccolte di testi informatizzati che offrono la possibilità di lavorare con materiale autentico, permettendo il contatto con la lingua in quanto strumento vivo e non come costrutto confezionato secondo schemi prestabiliti. Sono possibili ricerche mirate, confronti di testi in diverse lingue del mondo, analisi di testi di nativi alla portata di un clic; i corpora sono a disposizione di utenti di vario genere, a partire dai linguisti fino agli insegnanti e studenti di lingue straniere o per gli interessati ad approfondire il proprio sistema linguistico. Va sottolineato che i corpora sono soprattutto occasione di analisi. In questa tesi verrà descritto il lavoro di annotazione sintattica e di correzione e valutazione degli errori su un campione di sedici testi selezionati dal corpus VALICO (Corino e Marello, 2017). I testi sono stati prima parsificati automaticamente (in seguito a un processo di normalizzazione) attraverso l'uso di un modello UDPipe allenato su due "treebank" attualmente esistenti in Universal Dependencies (UD), poi l'annotazione sintattica così ottenuta è stata corretta manualmente ed è stata arricchita dalla correzione degli errori commessi dagli apprendenti stranieri. Lo schema d'annotazione sintattica utilizzato è quello delle UD e l'annotazione dell'errore ha previsto prima la scrittura delle target hypotheses (TH) e poi l'applicazione delle etichette formulate per il progetto VALICO-UD (Di Nuovo et al., 2019). I testi analizzati in questa tesi sono stati selezionati seguendo criteri rigorosi che tengono in considerazione i fattori di variazione dell'interlingua, come la lingua madre degli apprendenti, l'annualità di studio, il tipo di produzione (orale o scritta), la tipologia testuale. I testi in oggetto sono produzioni scritte di apprendenti tedescofoni di italiano come lingua straniera di tre annualità diverse (prima, seconda e terza), tutti elicitati da una delle cinque vignette di VALICO, "Amore". Il piccolo treebank così ottenuto ha stimolato la riflessione non solo sugli errori più comuni o inaspettati (perché non giustificabili basandosi solo sull'analisi contrastiva tra lingua madre e lingua target), ma anche sulla nozione stessa di errore, e cioè su cosa sia davvero necessario correggere, e sulle cause che stanno dietro alla devianza dalla lingua target, tenendo sempre conto delle variabili che possono influenzare il livello di conoscenza dell'italiano.File | Dimensione | Formato | |
---|---|---|---|
798303_nausitesi1.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
4.28 MB
Formato
Adobe PDF
|
4.28 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/146936