The protection of privacy in legal texts has become a pressing issue, particularly as the digitization of documents and the use of machine learning techniques in legal analysis continue to grow. Legal documents often contain sensitive information that, if disclosed, could compromise the confidentiality and rights of the parties involved. To address this, redactions are commonly employed to obscure or remove specific details. However, the advent of advanced artificial intelligence (AI) technologies raises questions about the adequacy of these traditional privacy measures. Can modern AI models, particularly those employing deep learning techniques, predict or reconstruct the redacted content, thereby posing new threats to privacy? This thesis delves into the application of machine learning techniques to assess the security and effectiveness of redactions in legal texts. The research is bifurcated into two distinct but interrelated paths. First, a BERT (Bidirectional Encoder Representations from Transformers) model is trained on a substantial dataset comprising 56,000 legal judgments. The model is specifically tasked with masked language modeling (MLM), which involves predicting the content hidden by redactions. The study evaluates the model's ability to accurately reconstruct the redacted portions of the text, thus assessing the potential risk of privacy breaches. The results indicate the model's predictive capabilities and provide insights into how effectively current redaction practices shield sensitive information. In the second part of the thesis, the focus shifts to a more aggressive security analysis using a gradient inversion attack. This sophisticated technique aims to exploit the trained neural network by reversing the gradients used during training, with the objective of reconstructing the original training dataset. The implications of such an attack are profound, as it demonstrates the potential for recovering sensitive and private information even when standard privacy-preserving techniques, such as redactions, are applied. This raises critical concerns about the inherent vulnerabilities of machine learning models, particularly in contexts where they are trained on confidential legal data. The findings of this research underscore a significant challenge: while redactions have long been considered a reliable method for protecting privacy in legal documents, the application of machine learning techniques—especially those involving deep learning models—reveals potential weaknesses in these protections. The successful application of gradient inversion attacks further highlights the need for the development of more robust and secure methods to ensure the confidentiality and integrity of legal data in the age of AI. The thesis ultimately calls for a reassessment of current privacy practices and suggests directions for future research aimed at fortifying legal document protections against the evolving capabilities of artificial intelligence.
La protezione della privacy nei testi giuridici è diventata una questione urgente, soprattutto con la crescente digitalizzazione dei documenti e l'uso sempre più diffuso di tecniche di machine learning nell'analisi legale. I documenti legali contengono spesso informazioni sensibili che, se divulgate, potrebbero compromettere la riservatezza e i diritti delle parti coinvolte. Per affrontare questo problema, vengono comunemente applicate omissioni per oscurare o rimuovere dettagli specifici. Tuttavia, l'avvento delle tecnologie avanzate di intelligenza artificiale (IA) solleva interrogativi sull'adeguatezza di queste misure tradizionali di protezione della privacy. I modelli di IA moderni, in particolare quelli che utilizzano tecniche di deep learning, possono prevedere o ricostruire il contenuto omesso, ponendo così nuove minacce alla privacy? Questa tesi esplora l'applicazione di tecniche di machine learning per valutare la sicurezza e l'efficacia delle omissioni nei testi giuridici. La ricerca si articola in due percorsi distinti ma interconnessi. Nel primo, viene addestrato un modello BERT (Bidirectional Encoder Representations from Transformers) su un ampio dataset composto da 56.000 sentenze giuridiche. Al modello viene assegnato il compito specifico di masked language modeling (MLM), che consiste nel prevedere il contenuto nascosto dalle omissioni. Lo studio valuta la capacità del modello di ricostruire accuratamente le parti omesse del testo, analizzando così il potenziale rischio di violazione della privacy. I risultati evidenziano le capacità predittive del modello e forniscono indicazioni su quanto efficacemente le attuali pratiche di omissione proteggano le informazioni sensibili. Nella seconda parte della tesi, l'attenzione si sposta su un'analisi di sicurezza più aggressiva tramite l'applicazione di un attacco di gradient inversion. Questa sofisticata tecnica mira a sfruttare la rete neurale addestrata invertendo i gradienti utilizzati durante l'addestramento, con l'obiettivo di ricostruire il dataset originale. Le implicazioni di un tale attacco sono profonde, poiché dimostrano la possibilità di recuperare informazioni sensibili e private anche quando vengono applicate tecniche standard di protezione della privacy, come le omissioni. Questo solleva importanti preoccupazioni sulle vulnerabilità intrinseche dei modelli di machine learning, soprattutto nei contesti in cui sono addestrati su dati legali confidenziali. I risultati di questa ricerca evidenziano una sfida significativa: sebbene le omissioni siano state a lungo considerate un metodo affidabile per proteggere la privacy nei documenti legali, l'applicazione delle tecniche di machine learning (soprattutto quelle che coinvolgono modelli di deep learning) rivela potenziali debolezze in queste protezioni. L'applicazione con successo degli attacchi di gradient inversion mette ulteriormente in luce la necessità di sviluppare metodi più robusti e sicuri per garantire la riservatezza e l'integrità dei dati legali nell'era dell'IA. La tesi, in ultima analisi, richiede una rivalutazione delle pratiche attuali di protezione della privacy e suggerisce direzioni per future ricerche volte a rafforzare le protezioni dei documenti legali contro le capacità in evoluzione dell'intelligenza artificiale.
Tecniche di machine learning applicate all'analisi dell'efficacia dell'omissione di contenuti nei testi giuridici per la tutela della privacy
ACCURSO, SAVERIO
2023/2024
Abstract
La protezione della privacy nei testi giuridici è diventata una questione urgente, soprattutto con la crescente digitalizzazione dei documenti e l'uso sempre più diffuso di tecniche di machine learning nell'analisi legale. I documenti legali contengono spesso informazioni sensibili che, se divulgate, potrebbero compromettere la riservatezza e i diritti delle parti coinvolte. Per affrontare questo problema, vengono comunemente applicate omissioni per oscurare o rimuovere dettagli specifici. Tuttavia, l'avvento delle tecnologie avanzate di intelligenza artificiale (IA) solleva interrogativi sull'adeguatezza di queste misure tradizionali di protezione della privacy. I modelli di IA moderni, in particolare quelli che utilizzano tecniche di deep learning, possono prevedere o ricostruire il contenuto omesso, ponendo così nuove minacce alla privacy? Questa tesi esplora l'applicazione di tecniche di machine learning per valutare la sicurezza e l'efficacia delle omissioni nei testi giuridici. La ricerca si articola in due percorsi distinti ma interconnessi. Nel primo, viene addestrato un modello BERT (Bidirectional Encoder Representations from Transformers) su un ampio dataset composto da 56.000 sentenze giuridiche. Al modello viene assegnato il compito specifico di masked language modeling (MLM), che consiste nel prevedere il contenuto nascosto dalle omissioni. Lo studio valuta la capacità del modello di ricostruire accuratamente le parti omesse del testo, analizzando così il potenziale rischio di violazione della privacy. I risultati evidenziano le capacità predittive del modello e forniscono indicazioni su quanto efficacemente le attuali pratiche di omissione proteggano le informazioni sensibili. Nella seconda parte della tesi, l'attenzione si sposta su un'analisi di sicurezza più aggressiva tramite l'applicazione di un attacco di gradient inversion. Questa sofisticata tecnica mira a sfruttare la rete neurale addestrata invertendo i gradienti utilizzati durante l'addestramento, con l'obiettivo di ricostruire il dataset originale. Le implicazioni di un tale attacco sono profonde, poiché dimostrano la possibilità di recuperare informazioni sensibili e private anche quando vengono applicate tecniche standard di protezione della privacy, come le omissioni. Questo solleva importanti preoccupazioni sulle vulnerabilità intrinseche dei modelli di machine learning, soprattutto nei contesti in cui sono addestrati su dati legali confidenziali. I risultati di questa ricerca evidenziano una sfida significativa: sebbene le omissioni siano state a lungo considerate un metodo affidabile per proteggere la privacy nei documenti legali, l'applicazione delle tecniche di machine learning (soprattutto quelle che coinvolgono modelli di deep learning) rivela potenziali debolezze in queste protezioni. L'applicazione con successo degli attacchi di gradient inversion mette ulteriormente in luce la necessità di sviluppare metodi più robusti e sicuri per garantire la riservatezza e l'integrità dei dati legali nell'era dell'IA. La tesi, in ultima analisi, richiede una rivalutazione delle pratiche attuali di protezione della privacy e suggerisce direzioni per future ricerche volte a rafforzare le protezioni dei documenti legali contro le capacità in evoluzione dell'intelligenza artificiale.File | Dimensione | Formato | |
---|---|---|---|
Tesi_Magistrale_Saverio_Accurso.pdf
non disponibili
Descrizione: Tesi Magistrale Saverio Accurso
Dimensione
4.53 MB
Formato
Adobe PDF
|
4.53 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/9355