This thesis discusses the implementation of a Retrieval-Augmented Generation (RAG) application for question answering in the legal domain, with a focus on regional legislation in Valle d'Aosta. The architecture, based on a NoSQL database and a vector search engine, is optimized through chunking techniques, query rewriting, and the use of an index to efficiently retrieve information. The experimentation was conducted on a corpus of 30 regional laws and a dataset of 15 open-ended questions and 100 multiple-choice questions, divided into four difficulty levels: explicit facts (L1); implicit facts (L2); interpretable rationales (L3); hidden rationales (L4). The findings indicate that within the tested model families (LLaMA, Gemini, Mistral), larger models consistently produce correct answers more frequently across all categories. However, smaller models demonstrated sufficient effectiveness for L1 and L2 questions. This research lays the groundwork for future advancements utilizing the Graph-RAG and Agentic-RAG paradigms.
Il seguente elaborato di tesi discute l’implementazione di un’applicaziione di Re- trieval Augmented Generation (RAG) per il question answering in ambito legale, con riferimento alla normativa regionale valdostana. L’architettura, basata su un database NoSQL e su un motore di ricerca vettoriale, è ottimizzata attraverso tec- niche di chunking, query rewriting e l’utilizzo di un indice, al fine di recuperare in maniera efficiente le informazioni. La sperimentazione è stata condotta su un cor- pus di 30 leggi regionali, e su un dataset di 15 domande aperte e 100 a risposta multipla, divise in 4 livelli di difficoltà: explicit facts (L1); implicit facts (L2); in- terpretable rationales (L3); hidden rationales (L4). I risultati evidenziano come, tra le famiglie di modelli testati (LLaMA, Gemini, Mistral ), i modelli di maggiore dimensione generino risposte corrette con maggiore frequenza per tutte le tipologie trattate. Tuttavia, i modelli di dimensione minore, si sono rivelati sufficientemente adeguati per le domande di tipologia L1 ed L2. Lo studio apre la strada a sviluppi futuri, basati sull’adozione dei paradigmi Graph-RAG e Agentic-RAG.
Studio e Applicazione della Retrieval-Augmented Generation per il Question Answering in Ambito Legale: case study sulla normativa valdostana
FANCELLU, ANDREA
2023/2024
Abstract
Il seguente elaborato di tesi discute l’implementazione di un’applicaziione di Re- trieval Augmented Generation (RAG) per il question answering in ambito legale, con riferimento alla normativa regionale valdostana. L’architettura, basata su un database NoSQL e su un motore di ricerca vettoriale, è ottimizzata attraverso tec- niche di chunking, query rewriting e l’utilizzo di un indice, al fine di recuperare in maniera efficiente le informazioni. La sperimentazione è stata condotta su un cor- pus di 30 leggi regionali, e su un dataset di 15 domande aperte e 100 a risposta multipla, divise in 4 livelli di difficoltà: explicit facts (L1); implicit facts (L2); in- terpretable rationales (L3); hidden rationales (L4). I risultati evidenziano come, tra le famiglie di modelli testati (LLaMA, Gemini, Mistral ), i modelli di maggiore dimensione generino risposte corrette con maggiore frequenza per tutte le tipologie trattate. Tuttavia, i modelli di dimensione minore, si sono rivelati sufficientemente adeguati per le domande di tipologia L1 ed L2. Lo studio apre la strada a sviluppi futuri, basati sull’adozione dei paradigmi Graph-RAG e Agentic-RAG.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Magistrale_Andrea_Fancellu_838776.pdf
non disponibili
Descrizione: Tesi di laurea di Andrea Fancellu, matricola 838776
Dimensione
1.48 MB
Formato
Adobe PDF
|
1.48 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/164317