The thesis project investigates the application of techniques and tools of a subfield of linguistics, computer science, and artificial intelligence, known as Natural Language Processing (NLP), to assist professionals in the field of fact-checking, contributing to the field’s advancement by aiming to establish systems for data collection and enhancement, ultimately targeting the automatic identification of previously verified claims. The main contribution of the project is the development of CheckIT!, a corpus of expert-verified claims, filling a gap for the development of fact-checking pipelines in Italian. Subsequently, the study explores the use of three state-of-the-art generative text models to create variations of statements contained in the dataset in zero-shot learning contexts to counter the tendency of misinformation to reoccur over time with minimal variations. Machine-generated paraphrases are compared both amongst themselves and with paraphrases manually produced by human annotators, utilizing a range of NLP text evaluation metrics, highlighting the difficulty for generative models in altering the superficial form of a text. Ultimately, the project advances the data augmentation process through the introduction of a framework for manually assessing paraphrases generated by textgenerative models. This framework, when combined with automated evaluations, facilitates the refinement of generated content, aligning it with the natural nuances of human language. The overarching goal is to enhance the effectiveness of CheckIT! and similar datasets. In conclusion, while acknowledging the current limitations of available technologies, techniques and methods from the field of NLP can serve as a valuable tool to enhance the fact-checking pipeline, significantly assisting in the identification of previously verified claims.
Il progetto di tesi investiga l’applicazione di tecniche e strumenti di elaborazione del linguaggio naturale (NLP), un’area interdisciplinare che combina linguistica, informatica e intelligenza artificiale, per assistere i professionisti nel contesto del fact-checking, contribuendo alla ricerca dell’ambito. L’obiettivo a lungo termine è creare sistemi per la raccolta e l’arricchimento dei dati, volti al riconoscimento automatico di affermazioni precedentemente verificate. Il principale contributo del progetto è la creazione di CheckIT!, un corpus di affermazioni verificate da esperti, che colma una lacuna per lo sviluppo di pipeline dedicate al fact-checking in italiano. Successivamente viene esplorato l’uso di tre modelli testuali generativi allo stato dell’arte per creare variazioni di affermazioni contenute nel dataset in contesti di zero-shot learning, per compensare la tendenza della disinformazione a ripetersi nel tempo con minime variazioni. Le parafrasi generate automaticamente sono paragonate tra loro e con parafrasi prodotte da annotatori umani, usando diverse metriche di text-evaluation della NLP, evidenziando la difficoltà incontrate dai modelli generativi nel variare la forma superficiale di un testo. Infine il progetto sviluppa ulteriormente il processo di data-augmentation, proponendo un framework per la valutazione manuale di parafrasi prodotte da modelli testuali generativi, che combinato a valutazioni automatiche può portare ad un raffinamento del materiale prodotto, armonizzandolo con le naturali variazioni del linguaggio umano, con l’obiettivo di aumentare l’utilità di CheckIT! ed altri dataset ad esso affini. In conclusione, pur riconoscendo i limiti delle tecnologie attualmente a disposizione, tecniche e metodi dell’area NLP possono rappresentare un valido strumento per potenziare la pipeline del fact-checking, fornendo un significativo supporto nell’identificazione di affermazioni precedentemente verificate.
CheckIT!: Creazione di un Corpus sul Fact-checking per l’Italiano e Data Augmentation tramite NLP e Large Language Models
GILI, JACOPO
2022/2023
Abstract
Il progetto di tesi investiga l’applicazione di tecniche e strumenti di elaborazione del linguaggio naturale (NLP), un’area interdisciplinare che combina linguistica, informatica e intelligenza artificiale, per assistere i professionisti nel contesto del fact-checking, contribuendo alla ricerca dell’ambito. L’obiettivo a lungo termine è creare sistemi per la raccolta e l’arricchimento dei dati, volti al riconoscimento automatico di affermazioni precedentemente verificate. Il principale contributo del progetto è la creazione di CheckIT!, un corpus di affermazioni verificate da esperti, che colma una lacuna per lo sviluppo di pipeline dedicate al fact-checking in italiano. Successivamente viene esplorato l’uso di tre modelli testuali generativi allo stato dell’arte per creare variazioni di affermazioni contenute nel dataset in contesti di zero-shot learning, per compensare la tendenza della disinformazione a ripetersi nel tempo con minime variazioni. Le parafrasi generate automaticamente sono paragonate tra loro e con parafrasi prodotte da annotatori umani, usando diverse metriche di text-evaluation della NLP, evidenziando la difficoltà incontrate dai modelli generativi nel variare la forma superficiale di un testo. Infine il progetto sviluppa ulteriormente il processo di data-augmentation, proponendo un framework per la valutazione manuale di parafrasi prodotte da modelli testuali generativi, che combinato a valutazioni automatiche può portare ad un raffinamento del materiale prodotto, armonizzandolo con le naturali variazioni del linguaggio umano, con l’obiettivo di aumentare l’utilità di CheckIT! ed altri dataset ad esso affini. In conclusione, pur riconoscendo i limiti delle tecnologie attualmente a disposizione, tecniche e metodi dell’area NLP possono rappresentare un valido strumento per potenziare la pipeline del fact-checking, fornendo un significativo supporto nell’identificazione di affermazioni precedentemente verificate.File | Dimensione | Formato | |
---|---|---|---|
949766_tesi_gili_jacopo_checkit.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.4 MB
Formato
Adobe PDF
|
1.4 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/149650