To date, poorly represented natural languages, quantifiable in the thousands, are considered an unresolved computational challenge. In the context of a project for the development of African communities, and the need of Ivorian farmers to be able to understand European regulations on agriculture by proving their eco-sustainability, lies the research question at the basis of this thesis: ‘Is it possible to represent low-resource languages through Large Language Models? This is a counterintuitive hypothesis, the difficulty of which is inherent in the very definition of LLM, for the training of which a large amount of data and computing resources are required. Using the technique of language distillation applied in the training phase to different models, agnostic and multilingual, a working pipeline will be shown and defined, from data collection to final validation experiments.

Le lingue naturali a scarsa rappresentazione, quantificabili nell'ordine delle migliaia, sono considerabili una sfida computazionale non ancora risolta. Nel contesto di un progetto per lo sviluppo di comunità africane, e la necessità dei contadini ivoriani di poter comprendere le normative Europee di regolamentazione dell'agricoltura comprovandone l' ecosostenibilità, risiede la domanda di ricerca alla base di questa tesi: " È  possibile rappresentare lingue low resources mediante Large Language Models?". Questa è un'ipotesi controintuitiva la cui difficoltà è insita nella stessa definizione di LLM, per il cui addestramento è necessario un ingente quantitativo di dati e risorse di calcolo. Mediante la tecnica di language distillation applicata in fase di addestramento a diversi modelli, agnostici e multilinguistici, sarà mostrata e definita una pipeline di lavoro, dalla raccolta dati agli esperimenti di validazione finali.

Exploring low resource languages through LLM with references to the ecology domain for Bambara language

BONFANTI, CHIARA
2023/2024

Abstract

Le lingue naturali a scarsa rappresentazione, quantificabili nell'ordine delle migliaia, sono considerabili una sfida computazionale non ancora risolta. Nel contesto di un progetto per lo sviluppo di comunità africane, e la necessità dei contadini ivoriani di poter comprendere le normative Europee di regolamentazione dell'agricoltura comprovandone l' ecosostenibilità, risiede la domanda di ricerca alla base di questa tesi: " È  possibile rappresentare lingue low resources mediante Large Language Models?". Questa è un'ipotesi controintuitiva la cui difficoltà è insita nella stessa definizione di LLM, per il cui addestramento è necessario un ingente quantitativo di dati e risorse di calcolo. Mediante la tecnica di language distillation applicata in fase di addestramento a diversi modelli, agnostici e multilinguistici, sarà mostrata e definita una pipeline di lavoro, dalla raccolta dati agli esperimenti di validazione finali.
Exploring low resource languages through LLM with references to the ecology domain for Bambara language
To date, poorly represented natural languages, quantifiable in the thousands, are considered an unresolved computational challenge. In the context of a project for the development of African communities, and the need of Ivorian farmers to be able to understand European regulations on agriculture by proving their eco-sustainability, lies the research question at the basis of this thesis: ‘Is it possible to represent low-resource languages through Large Language Models? This is a counterintuitive hypothesis, the difficulty of which is inherent in the very definition of LLM, for the training of which a large amount of data and computing resources are required. Using the technique of language distillation applied in the training phase to different models, agnostic and multilingual, a working pipeline will be shown and defined, from data collection to final validation experiments.
RADICIONI, DANIELE PAOLO
Non autorizzo consultazione esterna dell'elaborato
File in questo prodotto:
File Dimensione Formato  
Tesi_Magistrale-9.pdf

non disponibili

Dimensione 5.27 MB
Formato Adobe PDF
5.27 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/5966