Word learning is an incredibly complex and composite process, by which humans, among other things, learn to associate words to a specific object. This task, also known as mapping problem, should theoretically require the evaluation of a huge number of possible hypotheses, given the infinite amount of objects, concepts and actions that a single word could be mapped onto. Despite this, children display outstanding abilities to acquire new vocabulary at an impressive rate, even at an early age. Consequently, it has been postulated that infants possess implicit biases that help to rule out many hypotheses on word meanings. In particular, Markman (1989) postulated the existence of three main restrictions: the taxonomic, the whole object and the mutual exclusivity constraint. Recent studies, based on the neurocomputational model of Mayor and Plunkett (2010), show that these assumptions can be reproduced by means of neural networks. Fenoglio et al. (2017) demonstrated that the taxonomic constraint can emerge not only from artificial stimuli, but also from object representations learned by state of the art deep neural networks on real world data. However, these representations cannot be considered a good model for the whole object assumption, where a word is associated with an entity in its entirety, as there is in fact no certainty that convolutional networks extract and exploit visual information exclusively belonging to the observed objects. The purpose of this thesis is therefore to address this issue and explore a possible solution to introduce the whole object paradigm within this neural network model, expanding on previous works. We show that, by removing background information at training time and forcing a network to learn from the remaining features, it is possible to obtain substantially cleaner representations that can improve performances on the word learning model. We also expand on previous experiments by introducing realistic audio stimuli, proving that a good accuracy can be reached even in this case, especially when taking into consideration the whole object constraint.

L'apprendimento di nuovi termini è un processo incredibilmente complesso, grazie al quale l'uomo impara ad associare nuove parole ad oggetti specifici. Questo compito, anche noto come ¿mapping problem¿, richiederebbe in linea teorica la valutazione di un enorme numero di ipotesi possibili, data l'infinita quantità di oggetti, concetti e azioni su cui potrebbe essere mappata una nuova parola. Ciò nonostante, i bambini dimostrano eccezionali abilità nell'acquisizione di nuovi vocaboli ad un ritmo notevole, anche in tenera età. Di conseguenza, si ipotizza che i neonati posseggano condizionamenti impliciti che aiutano a scartare gran parte delle ipotesi sul significato di un termine. In particolare, Markman (1989) ipotizzò l'esistenza di tre restrizioni principali: il vincolo tassonomico, il ¿vincolo dell'oggetto intero¿ e l'assunzione di esclusione reciproca. Studi recenti, basati sul modello neuro-computazionale di Mayor e Plunkett (2010), dimostrano che queste assunzioni possono essere riprodotte per mezzo di reti neurali e rivelano che il vincolo tassonomico può emergere non solo tramite stimoli artificiali, ma anche da rappresentazioni di oggetti apprese da reti neurali profonde allo stato dell'arte, su dati reali. Tuttavia, queste rappresentazioni non possono essere considerate un buon modello di ¿whole object constraint¿, grazie al quale una parola viene associata ad un entità nella sua interezza, siccome non c'è alcuna certezza che le reti convoluzionali estraggano e sfruttino informazioni visive riguardanti in maniera esclusiva gli oggetti osservati. Lo scopo di questa tesi è dunque quello di affrontare questo problema ed esplorare una possibile soluzione in grado di introdurre questo paradigma all'interno del modello neurale, ampliando i lavori precedenti. Dimostriamo che, rimuovendo le informazioni visive in background durante l'addestramento e forzando una rete ad apprendere tramite gli elementi rimanenti, è possibile ottenere rappresentazioni ragionevolmente più pure che migliorano le performance del modello di apprendimento linguistico. Proseguendo inoltre gli esperimenti precedenti, introduciamo stimoli uditivi realistici mostrando che, anche in questo caso, è possibile ottenere una buona accuratezza, in special modo se tiene in considerazione il vincolo dell'oggetto intero.

Un modello di Whole Object Constraint per l'apprendimento linguistico tramite reti neurali profonde

ARNAUDO, EDOARDO
2017/2018

Abstract

L'apprendimento di nuovi termini è un processo incredibilmente complesso, grazie al quale l'uomo impara ad associare nuove parole ad oggetti specifici. Questo compito, anche noto come ¿mapping problem¿, richiederebbe in linea teorica la valutazione di un enorme numero di ipotesi possibili, data l'infinita quantità di oggetti, concetti e azioni su cui potrebbe essere mappata una nuova parola. Ciò nonostante, i bambini dimostrano eccezionali abilità nell'acquisizione di nuovi vocaboli ad un ritmo notevole, anche in tenera età. Di conseguenza, si ipotizza che i neonati posseggano condizionamenti impliciti che aiutano a scartare gran parte delle ipotesi sul significato di un termine. In particolare, Markman (1989) ipotizzò l'esistenza di tre restrizioni principali: il vincolo tassonomico, il ¿vincolo dell'oggetto intero¿ e l'assunzione di esclusione reciproca. Studi recenti, basati sul modello neuro-computazionale di Mayor e Plunkett (2010), dimostrano che queste assunzioni possono essere riprodotte per mezzo di reti neurali e rivelano che il vincolo tassonomico può emergere non solo tramite stimoli artificiali, ma anche da rappresentazioni di oggetti apprese da reti neurali profonde allo stato dell'arte, su dati reali. Tuttavia, queste rappresentazioni non possono essere considerate un buon modello di ¿whole object constraint¿, grazie al quale una parola viene associata ad un entità nella sua interezza, siccome non c'è alcuna certezza che le reti convoluzionali estraggano e sfruttino informazioni visive riguardanti in maniera esclusiva gli oggetti osservati. Lo scopo di questa tesi è dunque quello di affrontare questo problema ed esplorare una possibile soluzione in grado di introdurre questo paradigma all'interno del modello neurale, ampliando i lavori precedenti. Dimostriamo che, rimuovendo le informazioni visive in background durante l'addestramento e forzando una rete ad apprendere tramite gli elementi rimanenti, è possibile ottenere rappresentazioni ragionevolmente più pure che migliorano le performance del modello di apprendimento linguistico. Proseguendo inoltre gli esperimenti precedenti, introduciamo stimoli uditivi realistici mostrando che, anche in questo caso, è possibile ottenere una buona accuratezza, in special modo se tiene in considerazione il vincolo dell'oggetto intero.
ENG
Word learning is an incredibly complex and composite process, by which humans, among other things, learn to associate words to a specific object. This task, also known as mapping problem, should theoretically require the evaluation of a huge number of possible hypotheses, given the infinite amount of objects, concepts and actions that a single word could be mapped onto. Despite this, children display outstanding abilities to acquire new vocabulary at an impressive rate, even at an early age. Consequently, it has been postulated that infants possess implicit biases that help to rule out many hypotheses on word meanings. In particular, Markman (1989) postulated the existence of three main restrictions: the taxonomic, the whole object and the mutual exclusivity constraint. Recent studies, based on the neurocomputational model of Mayor and Plunkett (2010), show that these assumptions can be reproduced by means of neural networks. Fenoglio et al. (2017) demonstrated that the taxonomic constraint can emerge not only from artificial stimuli, but also from object representations learned by state of the art deep neural networks on real world data. However, these representations cannot be considered a good model for the whole object assumption, where a word is associated with an entity in its entirety, as there is in fact no certainty that convolutional networks extract and exploit visual information exclusively belonging to the observed objects. The purpose of this thesis is therefore to address this issue and explore a possible solution to introduce the whole object paradigm within this neural network model, expanding on previous works. We show that, by removing background information at training time and forcing a network to learn from the remaining features, it is possible to obtain substantially cleaner representations that can improve performances on the word learning model. We also expand on previous experiments by introducing realistic audio stimuli, proving that a good accuracy can be reached even in this case, especially when taking into consideration the whole object constraint.
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
763483_master_thesis_edoardo_arnaudo.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 5.25 MB
Formato Adobe PDF
5.25 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/48303