Text mining is one of the most advanced techniques of recent years to extrapolate useful information from texts in order to classify the information contained in them. From social network posts to documents containing sensitive data, machine learning techniques help extract knowledge of various types to solve different tasks. In this study, we aim to use Doc2Vec, a semi-supervised learning algorithm as a means of supporting the classification of legal judgments. The numerical features generated by the Doc2Vec algorithm are then used, in combination with other descriptive features of the documents, in order to classify the sentences as accepted or rejected. A selection of the most important features was made to achieve a more efficient resolution of the task. In addition to the approach with word embeddings, a semi-supervised approach using clustering was used. ​

Il text mining è una delle tecniche più all’avanguardia degli ultimi anni per estrapolare informazioni utili dai testi al fine di classificare le informazioni contenute in essi. Dai post dei social network a documenti contenenti dati sensibili, le tecniche di apprendimento automatico aiutano a estrapolare conoscenza di vario tipo utile a risolvere differenti task. In questo studio, si mira ad utilizzare Doc2Vec, un algoritmo di apprendimento semi-supervisionato come mezzo di supporto alla classificazione di sentenze giuridiche. Si utilizzano quindi le feature numeriche generate dall’algoritmo di Doc2Vec, in combinazione con altre feature descrittive dei documenti, al fine di classificare le sentenze come accolte o respinte. È stata effettuata una selezione delle feature più importanti al fine di ottenere una risoluzione più efficiente del task. Oltre all’approccio con word embeddings è stato utilizzato un approccio semi-supervisionato mediante clustering.

Classificazione di sentenze giuridiche attraverso l’utilizzo di document Embeddings

MARRAZZO, ALESSANDRO
2019/2020

Abstract

Il text mining è una delle tecniche più all’avanguardia degli ultimi anni per estrapolare informazioni utili dai testi al fine di classificare le informazioni contenute in essi. Dai post dei social network a documenti contenenti dati sensibili, le tecniche di apprendimento automatico aiutano a estrapolare conoscenza di vario tipo utile a risolvere differenti task. In questo studio, si mira ad utilizzare Doc2Vec, un algoritmo di apprendimento semi-supervisionato come mezzo di supporto alla classificazione di sentenze giuridiche. Si utilizzano quindi le feature numeriche generate dall’algoritmo di Doc2Vec, in combinazione con altre feature descrittive dei documenti, al fine di classificare le sentenze come accolte o respinte. È stata effettuata una selezione delle feature più importanti al fine di ottenere una risoluzione più efficiente del task. Oltre all’approccio con word embeddings è stato utilizzato un approccio semi-supervisionato mediante clustering.
ITA
Text mining is one of the most advanced techniques of recent years to extrapolate useful information from texts in order to classify the information contained in them. From social network posts to documents containing sensitive data, machine learning techniques help extract knowledge of various types to solve different tasks. In this study, we aim to use Doc2Vec, a semi-supervised learning algorithm as a means of supporting the classification of legal judgments. The numerical features generated by the Doc2Vec algorithm are then used, in combination with other descriptive features of the documents, in order to classify the sentences as accepted or rejected. A selection of the most important features was made to achieve a more efficient resolution of the task. In addition to the approach with word embeddings, a semi-supervised approach using clustering was used. ​
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
898842_tesialessandromarrazzo898842.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.38 MB
Formato Adobe PDF
1.38 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/155629