n real industrial scenarios, texts obtained via surveys or web crawling are annotated by domain experts with revised expression containing all the relevant information while being short and coherent in terms of lexicon and syntax. These high-quality patterns may only result from costly human intervention, where the input (raw) texts are partially rewritten by annotators, producing clean texts. The raw-texts, collected by Nuance Communication, Inc. via surveys, regard ways to say commands in the automotive context. Example types of such voice commands are ¿open app *¿, ¿change radio station to *¿, ¿read message from *¿, and so forth. In this Master Thesis, we propose an innovative yet simple method to automatically learn revision rules, or correction patterns. With correction patterns we mean automatically-generated rules which are <expression, replacement> pairs: the former is an expression matching a determinate set of input raw-strings while the replacement indicates a replacement of the matched string with a clean-string. Thus, correction patterns are particularly useful for proposing suggestions to annotators, especially in industrial scenarios and with large amount of data, lightening and speeding up their work. Our approach represents a novel method that fully complies with such requirements without relying on overly complex and language-specific approaches. Generally speaking, our technique is based on a two-steps process. The first one aims at finding a set of sub-string alignments between raw and clean texts. The goal of the second step is to build a distributional profile of the sub-strings of the previous step over the aligned cleaned sub-strings. A clustering process on such distributional representations with a centroid-based feature selection finally generates the replacement of the correction patterns. Finally, we extensively evaluated our approach on more than 700,000 expert-revised sentences in 5 languages, showing promising results.

Negli scenari industriali, i testi (raw) ottenuti tramite sondaggi o web crawling sono annotati da esperti del dominio. Gli esperti modificato le frasi dei testi in modo tale che queste contengano tutte le informazioni rilevanti, rimanendo corte e coerenti dal punto di vista lessicale e sintattico. Di conseguenza, i testi prodotti (clean) conterranno dei pattern di alta qualità che potranno essere utilizzati per addestrare dei modelli statistici. Nel nostro dominio i testi raw, collezionati da Nuance Communication, Inc. attraverso sondaggi, riguardano modi di esprimere comandi vocali all'interno del contesto automotive. Alcuni esempi di questi comandi sono: ¿apri l'applicazione *¿, ¿cambia stazione radio¿, e ¿leggi il messaggio di *¿. In questa Tesi Magistrale, proponiamo un innovativo metodo per estrarre automaticamente regole di revisione, o correction pattern: coppie <espressione, sostituzione>, dove l'espressione è una stringa che può allineare una o più parole del testo raw, mentre la sostituzione indica come modificare l'espressione. Queste regole risultano particolarmente utili per proporre suggerimenti agli annotatori, specialmente in contesti in cui si hanno grandi moli di dati, velocizzando e alleggerendo il loro lavoro. Il nostro approccio, per estrarre i pattern di correzione, rappresenta un nuovo e semplice metodo che non si basa su complessi e specifici approcci legati alla lingua. In generale, la nostra tecnica è formata da due step. Il primo step mira a formare allineamenti tra le sottostringhe del testo raw e clean. L'obiettivo del secondo step, invece, è quello di costruire un profilo distribuzionale degli allineamenti trovati nel passo precedente. Infine, l'applicazione di un algoritmo di clusterizzazione sui profili distribuzionali con successiva selezione delle feature del centroide consente di generare i correction pattern. L'approccio sarà poi valutato su più di 700,000 frasi (totale delle frasi di 5 differenti corpus, ognuno appartenente ad una differente lingua) riviste dagli annotatori, mostrando promettenti risultati.

Apprendimento Automatico di Revisioni Testuali Multilingue

SIRAGUSA, GIOVANNI
2015/2016

Abstract

Negli scenari industriali, i testi (raw) ottenuti tramite sondaggi o web crawling sono annotati da esperti del dominio. Gli esperti modificato le frasi dei testi in modo tale che queste contengano tutte le informazioni rilevanti, rimanendo corte e coerenti dal punto di vista lessicale e sintattico. Di conseguenza, i testi prodotti (clean) conterranno dei pattern di alta qualità che potranno essere utilizzati per addestrare dei modelli statistici. Nel nostro dominio i testi raw, collezionati da Nuance Communication, Inc. attraverso sondaggi, riguardano modi di esprimere comandi vocali all'interno del contesto automotive. Alcuni esempi di questi comandi sono: ¿apri l'applicazione *¿, ¿cambia stazione radio¿, e ¿leggi il messaggio di *¿. In questa Tesi Magistrale, proponiamo un innovativo metodo per estrarre automaticamente regole di revisione, o correction pattern: coppie , dove l'espressione è una stringa che può allineare una o più parole del testo raw, mentre la sostituzione indica come modificare l'espressione. Queste regole risultano particolarmente utili per proporre suggerimenti agli annotatori, specialmente in contesti in cui si hanno grandi moli di dati, velocizzando e alleggerendo il loro lavoro. Il nostro approccio, per estrarre i pattern di correzione, rappresenta un nuovo e semplice metodo che non si basa su complessi e specifici approcci legati alla lingua. In generale, la nostra tecnica è formata da due step. Il primo step mira a formare allineamenti tra le sottostringhe del testo raw e clean. L'obiettivo del secondo step, invece, è quello di costruire un profilo distribuzionale degli allineamenti trovati nel passo precedente. Infine, l'applicazione di un algoritmo di clusterizzazione sui profili distribuzionali con successiva selezione delle feature del centroide consente di generare i correction pattern. L'approccio sarà poi valutato su più di 700,000 frasi (totale delle frasi di 5 differenti corpus, ognuno appartenente ad una differente lingua) riviste dagli annotatori, mostrando promettenti risultati.
ITA
n real industrial scenarios, texts obtained via surveys or web crawling are annotated by domain experts with revised expression containing all the relevant information while being short and coherent in terms of lexicon and syntax. These high-quality patterns may only result from costly human intervention, where the input (raw) texts are partially rewritten by annotators, producing clean texts. The raw-texts, collected by Nuance Communication, Inc. via surveys, regard ways to say commands in the automotive context. Example types of such voice commands are ¿open app *¿, ¿change radio station to *¿, ¿read message from *¿, and so forth. In this Master Thesis, we propose an innovative yet simple method to automatically learn revision rules, or correction patterns. With correction patterns we mean automatically-generated rules which are <expression, replacement> pairs: the former is an expression matching a determinate set of input raw-strings while the replacement indicates a replacement of the matched string with a clean-string. Thus, correction patterns are particularly useful for proposing suggestions to annotators, especially in industrial scenarios and with large amount of data, lightening and speeding up their work. Our approach represents a novel method that fully complies with such requirements without relying on overly complex and language-specific approaches. Generally speaking, our technique is based on a two-steps process. The first one aims at finding a set of sub-string alignments between raw and clean texts. The goal of the second step is to build a distributional profile of the sub-strings of the previous step over the aligned cleaned sub-strings. A clustering process on such distributional representations with a centroid-based feature selection finally generates the replacement of the correction patterns. Finally, we extensively evaluated our approach on more than 700,000 expert-revised sentences in 5 languages, showing promising results.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
734452_tesisiragusa.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 1.67 MB
Formato Adobe PDF
1.67 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/115518