In the legal sector, searching and analyzing documents requires a considerable amount of time, and the volume of available data is continuously increasing. Current tools need to adapt to technological developments, especially in the field of information recommendation systems. Natural Language Processing (NLP) techniques can offer a solution by reducing the workload and accelerating consultation times. However, one of the main challenges in developing these tools is the use of a domain specific language, which significantly deviates from common language, making generic models unsuitable. The aim of this work is to develop a cross-linguistic dataset composed of legal texts, with associated queries to enable information retrieval. The dataset is created from a large number of documents offered on the Eurolex portal,offered in various languages of the European Union and manually translated by professionals. The documents are retrieved, filtered and generated queries are associated using an LLM. We thus obtain a multilingual dataset with content suitable for the creation of models that perform Information-Retrieval operations on legal documents.
Nel settore legale, la ricerca e l'analisi di documentazione richiedono una notevole quantità di tempo, e il volume di dati disponibili è in continuo aumento. Gli strumenti attuali necessitano di adeguarsi agli sviluppi tecnologici, in particolare nell'ambito dei sistemi di raccomandazione delle informazioni. Le tecniche di Natural Language Processing (NLP) possono offrire una soluzione riducendo il carico di lavoro e accelerando i tempi di consultazione. Tuttavia, una delle principali sfide nello sviluppo di questi strumenti è l'uso di un linguaggio altamente specializzato, che si discosta significativamente dal linguaggio comune, rendendo inadatti modelli generici. L’obiettivo di questo lavoro è sviluppare un dataset cross-linguistico composto da testi legali, con query associate per abilitare il recupero delle informazioni. Il dataset viene creato a partire da una grande quantità documenti offerti sul portale Eurolex, disponibili in varie lingue dell'Unione Europea e tradotti manualmente da professionisti. I documenti vengono recuperati, filtrati e infine vengono associate le query generate utilizzando un LLM. Otteniamo così un dataset multilingua dal contenuto adatto per la creazione di modelli che eseguano operazioni di Information-Retrieval su documenti di natura Legale.
Legal Retrieval Dataset: Raccolta di Dati per il Recupero di Informazioni Giuridiche
PAVAN, ANDREA
2023/2024
Abstract
Nel settore legale, la ricerca e l'analisi di documentazione richiedono una notevole quantità di tempo, e il volume di dati disponibili è in continuo aumento. Gli strumenti attuali necessitano di adeguarsi agli sviluppi tecnologici, in particolare nell'ambito dei sistemi di raccomandazione delle informazioni. Le tecniche di Natural Language Processing (NLP) possono offrire una soluzione riducendo il carico di lavoro e accelerando i tempi di consultazione. Tuttavia, una delle principali sfide nello sviluppo di questi strumenti è l'uso di un linguaggio altamente specializzato, che si discosta significativamente dal linguaggio comune, rendendo inadatti modelli generici. L’obiettivo di questo lavoro è sviluppare un dataset cross-linguistico composto da testi legali, con query associate per abilitare il recupero delle informazioni. Il dataset viene creato a partire da una grande quantità documenti offerti sul portale Eurolex, disponibili in varie lingue dell'Unione Europea e tradotti manualmente da professionisti. I documenti vengono recuperati, filtrati e infine vengono associate le query generate utilizzando un LLM. Otteniamo così un dataset multilingua dal contenuto adatto per la creazione di modelli che eseguano operazioni di Information-Retrieval su documenti di natura Legale.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Triennale_Legal_retrieval .pdf
non disponibili
Dimensione
381.12 kB
Formato
Adobe PDF
|
381.12 kB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/5080