The sharing of data in digital form, driven by various factors including the digitization of services and commerce and the spread of social media, has now become common practice. This sharing often concerns personal information and brings with it a concern that is increasingly felt by users: the protection of their privacy. Important steps forward have been made in the European legislative field with the GDPR (General Data Protection Regulation) aimed at regulating the sharing of personal data in order to protect the data subjects. In recent years, numerous tools that are capable of processing textual data to make them compliant to this law have been developed; these tools identify and mask certain information (entities) in order to prevent, or at least make it very complex, the re-identification of the data subjects starting from the data themselves. Most of these tools focus on structured textual data (in tabular form) and only a few operate on unstructured ones (free text documents). AnonymAI uses the most modern Machine Learning and Natural Language Processing techniques which, combined with the use of regular expressions, allow to identify a wide range of sensitive entities, candidates for anonymization, within an unstructured text document. The degree of anonymization applied to the document is chosen by the user who can rely on one of the predefined configurations or create a customized one. ​

La condivisione di dati in forma digitale, spinta da diversi fattori tra i quali la digitalizzazione dei servizi e del commercio e la diffusione dei social media, è diventata ormai prassi comune. Tale condivisione riguarda spesso informazioni personali e porta con sé una preoccupazione sempre più sentita dagli utenti: la protezione della loro privacy. Importanti passi avanti sono stati compiuti in ambito legislativo europeo con il GDPR (Regolamento Generale sulla Protezione dei Dati) atto a regolamentare la diffusione di dati personali al fine di tutelare i soggetti interessati. Negli ultimi anni sono stati sviluppati numerosi strumenti in grado di processare dati di tipo testuale per renderli conformi a questa legge; tali strumenti individuano e mascherano alcune informazioni (entità) al fine di impedire, o comunque rendere molto complessa, la re-identificazione dei soggetti interessati a partire dai dati stessi. La maggior parte di questi strumenti si concentra su dati testuali strutturati (in forma tabellare) e solo pochi operano su quelli non strutturati (documenti di testo libero). AnonymAI sfrutta le più moderne tecniche di Machine Learning e Natural Language Processing che, combinate all’utilizzo di espressioni regolari, permettono di identificare una vasta gamma di entità sensibili, candidate ad essere anonimizzate, all’interno di un documento di testo non strutturato. Il grado di anonimizzazione applicato al documento è scelto dall’utente che può affidarsi ad una delle configurazioni predefinite o crearne una personalizzata. ​

AnonymAI: anonimizzazione di documenti conforme alla legge

GANGI, ALESSANDRO
2019/2020

Abstract

La condivisione di dati in forma digitale, spinta da diversi fattori tra i quali la digitalizzazione dei servizi e del commercio e la diffusione dei social media, è diventata ormai prassi comune. Tale condivisione riguarda spesso informazioni personali e porta con sé una preoccupazione sempre più sentita dagli utenti: la protezione della loro privacy. Importanti passi avanti sono stati compiuti in ambito legislativo europeo con il GDPR (Regolamento Generale sulla Protezione dei Dati) atto a regolamentare la diffusione di dati personali al fine di tutelare i soggetti interessati. Negli ultimi anni sono stati sviluppati numerosi strumenti in grado di processare dati di tipo testuale per renderli conformi a questa legge; tali strumenti individuano e mascherano alcune informazioni (entità) al fine di impedire, o comunque rendere molto complessa, la re-identificazione dei soggetti interessati a partire dai dati stessi. La maggior parte di questi strumenti si concentra su dati testuali strutturati (in forma tabellare) e solo pochi operano su quelli non strutturati (documenti di testo libero). AnonymAI sfrutta le più moderne tecniche di Machine Learning e Natural Language Processing che, combinate all’utilizzo di espressioni regolari, permettono di identificare una vasta gamma di entità sensibili, candidate ad essere anonimizzate, all’interno di un documento di testo non strutturato. Il grado di anonimizzazione applicato al documento è scelto dall’utente che può affidarsi ad una delle configurazioni predefinite o crearne una personalizzata. ​
ITA
The sharing of data in digital form, driven by various factors including the digitization of services and commerce and the spread of social media, has now become common practice. This sharing often concerns personal information and brings with it a concern that is increasingly felt by users: the protection of their privacy. Important steps forward have been made in the European legislative field with the GDPR (General Data Protection Regulation) aimed at regulating the sharing of personal data in order to protect the data subjects. In recent years, numerous tools that are capable of processing textual data to make them compliant to this law have been developed; these tools identify and mask certain information (entities) in order to prevent, or at least make it very complex, the re-identification of the data subjects starting from the data themselves. Most of these tools focus on structured textual data (in tabular form) and only a few operate on unstructured ones (free text documents). AnonymAI uses the most modern Machine Learning and Natural Language Processing techniques which, combined with the use of regular expressions, allow to identify a wide range of sensitive entities, candidates for anonymization, within an unstructured text document. The degree of anonymization applied to the document is chosen by the user who can rely on one of the predefined configurations or create a customized one. ​
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
796913_tesi_magistrale_gangi_alessandro.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.89 MB
Formato Adobe PDF
1.89 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/155634