The project of this thesis concerns the use of large language models (LLMs) designed for the Italian language with the aim of enriching a dataset for automatic fact-checking. In an era in which disinformation spreads rapidly through digital media, artificial intelligence technologies represent a potential and innovative solution for counteracting such phenomena. The main aim of the project was to contribute to the development of CheckIT!, a corpus of expert-verified claims, which fills a gap in the development of pipelines dedicated to fact-checking in Italian, by generating synthetic claims in Italian, using LLaMantino, a model based on LLaMA architecture in the 7B and 13B versions adapted for the generation of Italian language texts. These claims will enrich the existing corpus, thus creating a larger and more diversified database for training automatic fact-checking systems. In the course of the study, the implementation of different personas was tested, i.e. behavioural profiles that alter the model's response mode to suit specific ideological or functional contexts. The personas include, among others, impartial assistants, journalists, malicious agents and voters with different political alignments, with the aim of simulating scenarios of disinformation or information manipulation. The project included a paraphrasing and rewriting phase of the claims, with the quality of the produced output analysed through both manual and automatic measures, such as BERTScore, BLEU, ROUGE and Cosine Similarity. The work has shown how the use of LLMs can significantly contribute to the improvement of the fact-checking process, which despite the current limitations of LLMs opens the way to new possibilities for the application of artificial intelligence for the monitoring and verification of content in digital media, with a particular focus on the Italian language.
Il progetto di questa tesi riguarda l'utilizzo di modelli di linguaggio di grandi dimensioni (LLMs) progettati per la lingua italiana con lo scopo di arricchire un dataset finalizzato al fact-checking automatico. In un'epoca in cui la disinformazione si diffonde rapidamente attraverso i media digitali, le tecnologie di intelligenza artificiale rappresentano una potenziale soluzione innovativa per il contrasto di tali fenomeni. Il principale scopo del progetto è stato contribuire allo sviluppo di CheckIT!, un corpus di affermazioni verificate da esperti, che colma una lacuna per lo sviluppo di pipeline dedicate al fact-checking in italiano, generando claim sintetici in italiano, utilizzando LLaMantino, un modello basato su architettura LLaMA nelle versioni 7B e 13B adattate per la generazione di testi in lingua italiana. Questi claim arricchiranno il corpus esistente, creando così una base dati più ampia e diversificata per l’addestramento di sistemi di verifica automatica delle informazioni. Nel corso dello studio, è stata sperimentata l’implementazione di diverse personas, ossia profili comportamentali che alterano la modalità di risposta del modello per adattarla a specifici contesti ideologici o funzionali. Le personas includono, tra gli altri, assistenti imparziali, giornalisti, agenti malevoli ed elettori con diversi schieramenti politici, con l’obiettivo di simulare scenari di disinformazione o manipolazione delle informazioni. Il progetto ha previsto una fase di parafrasi e riscrittura dei claim, con l’analisi della qualità degli output prodotti attraverso misure sia manuali che automatiche, quali BERTScore, BLEU, ROUGE e Cosine Similarity. Il lavoro ha dimostrato come l’utilizzo di LLMs possa contribuire, in maniera significativa, al miglioramento del processo di fact-checking, che nonostante i limiti attuali dei LLMs apre la strada a nuove possibilità di applicazione dell’intelligenza artificiale per il monitoraggio e la verifica dei contenuti nei media digitali, con un focus particolare sulla lingua italiana.
CheckIT!: Sperimentazione su LLM per la lingua italiana finalizzata all'arricchimento di un dataset per il Fact-Checking automatico.
GIUMMARRA, ALESSIO
2023/2024
Abstract
Il progetto di questa tesi riguarda l'utilizzo di modelli di linguaggio di grandi dimensioni (LLMs) progettati per la lingua italiana con lo scopo di arricchire un dataset finalizzato al fact-checking automatico. In un'epoca in cui la disinformazione si diffonde rapidamente attraverso i media digitali, le tecnologie di intelligenza artificiale rappresentano una potenziale soluzione innovativa per il contrasto di tali fenomeni. Il principale scopo del progetto è stato contribuire allo sviluppo di CheckIT!, un corpus di affermazioni verificate da esperti, che colma una lacuna per lo sviluppo di pipeline dedicate al fact-checking in italiano, generando claim sintetici in italiano, utilizzando LLaMantino, un modello basato su architettura LLaMA nelle versioni 7B e 13B adattate per la generazione di testi in lingua italiana. Questi claim arricchiranno il corpus esistente, creando così una base dati più ampia e diversificata per l’addestramento di sistemi di verifica automatica delle informazioni. Nel corso dello studio, è stata sperimentata l’implementazione di diverse personas, ossia profili comportamentali che alterano la modalità di risposta del modello per adattarla a specifici contesti ideologici o funzionali. Le personas includono, tra gli altri, assistenti imparziali, giornalisti, agenti malevoli ed elettori con diversi schieramenti politici, con l’obiettivo di simulare scenari di disinformazione o manipolazione delle informazioni. Il progetto ha previsto una fase di parafrasi e riscrittura dei claim, con l’analisi della qualità degli output prodotti attraverso misure sia manuali che automatiche, quali BERTScore, BLEU, ROUGE e Cosine Similarity. Il lavoro ha dimostrato come l’utilizzo di LLMs possa contribuire, in maniera significativa, al miglioramento del processo di fact-checking, che nonostante i limiti attuali dei LLMs apre la strada a nuove possibilità di applicazione dell’intelligenza artificiale per il monitoraggio e la verifica dei contenuti nei media digitali, con un focus particolare sulla lingua italiana.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Alessio_Giummarra.pdf
non disponibili
Dimensione
1.2 MB
Formato
Adobe PDF
|
1.2 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/8833