La comunicazione multimodale è definita come la trasmissione di segnali attraverso diversi canali sensoriali. L’obiettivo dell’approccio multimodale è descrivere il segnale nella totalità della sua espressione, piuttosto che scomposto nelle singole componenti sensoriali. Il volto assume un ruolo importante poiché veicola informazioni essenziali nel contesto sociale. Attualmente viene utilizzato il metodo FACS per descrivere i movimenti facciali come sommatoria delle contrazioni dei muscoli facciali. Tuttavia, il metodo FACS ha aspetti spiccatamente specie-specifici e richiede tempi di applicazioni molto lunghi. In ragione di questi limiti, l’obiettivo di questo studio è di testare una nuova metodologia in grado di quantificare i movimenti facciali in modo riproducibile per diverse specie e contesti, in modo oggettivo, su dataset molto ampi e riducendo i tempi di analisi. A tal fine, le tecnologie di deep learning rappresentano una soluzione ottimale: possono essere addestrate su un set limitato di dati (training) e poi essere in grado di costruire un modello robusto in grado di operare autonomamente. Il software DeepLabCut si basa su algoritmi di deep learning ed è stato qui utilizzato per studiare il movimento facciale senza l’utilizzo di marker. Come specie modello, ho scelto Indri indri, l’unico lemure cantante. La raccolta dati è stata svolta nella riserva naturale di Maromizaha, in Madagascar, per 4 mesi. Tra i video registrati ho selezionato un totale di 1 ora e 18 minuti. I videoclip sono stati suddivisi ed etichettati come “facial” (laddove l’animale non emettesse vocalizzazioni) e “co-occurrence” (in presenza di vocalizzazioni). La selezione dei video è stata effettuata con il software BORIS. Sono stati scelti 13 punti chiave sul volto di indri per costruire un modello in grado di stimare i movimenti facciali. I frame etichettati, costituenti il training dataset, erano 1846. Dopo la fase di train e test, sono state generati file contenenti le coordinate dei punti, successivamente convertite in matrici di distanza. A questo punto, sono state applicate tecniche di machine learning così da discriminare, dalle matrici complete di tutti i punti, la compresenza o meno di fonazione. I risultati indicano un’alta percentuale di corretta classificazione. Successivamente è stato eseguito un K-means clustering che identificato 13 cluster. Come validazione, ho riassegnato con un modello Discriminante a questi 13 cluster i frame utilizzati per le analisi con un elevato tasso di corretta classificazione. Le classi ottenute hanno mostrato una suddivisione basata in parte sulla variazione dei punti del volto (apertura boccale durante l’alimentazione o l’emissione di vocalizzazioni) ma, nella definizione dei gruppi, ha influito anche l’angolo di ripresa. Il risultato comporta la presenza di gruppi diversi con frame contenenti movimenti facciali simili, ma ripresi da angolazioni differenti. Lo studio ha permesso di porre le basi nella creazione di un modello applicabile universalmente all’analisi dei movimenti facciali.

Machine learning e multimodalitá: analisi sulla co-occorrenza di espressioni facciali e vocalizzazioni di Indri indri in natura.

PROTOPAPA, ELISA
2021/2022

Abstract

La comunicazione multimodale è definita come la trasmissione di segnali attraverso diversi canali sensoriali. L’obiettivo dell’approccio multimodale è descrivere il segnale nella totalità della sua espressione, piuttosto che scomposto nelle singole componenti sensoriali. Il volto assume un ruolo importante poiché veicola informazioni essenziali nel contesto sociale. Attualmente viene utilizzato il metodo FACS per descrivere i movimenti facciali come sommatoria delle contrazioni dei muscoli facciali. Tuttavia, il metodo FACS ha aspetti spiccatamente specie-specifici e richiede tempi di applicazioni molto lunghi. In ragione di questi limiti, l’obiettivo di questo studio è di testare una nuova metodologia in grado di quantificare i movimenti facciali in modo riproducibile per diverse specie e contesti, in modo oggettivo, su dataset molto ampi e riducendo i tempi di analisi. A tal fine, le tecnologie di deep learning rappresentano una soluzione ottimale: possono essere addestrate su un set limitato di dati (training) e poi essere in grado di costruire un modello robusto in grado di operare autonomamente. Il software DeepLabCut si basa su algoritmi di deep learning ed è stato qui utilizzato per studiare il movimento facciale senza l’utilizzo di marker. Come specie modello, ho scelto Indri indri, l’unico lemure cantante. La raccolta dati è stata svolta nella riserva naturale di Maromizaha, in Madagascar, per 4 mesi. Tra i video registrati ho selezionato un totale di 1 ora e 18 minuti. I videoclip sono stati suddivisi ed etichettati come “facial” (laddove l’animale non emettesse vocalizzazioni) e “co-occurrence” (in presenza di vocalizzazioni). La selezione dei video è stata effettuata con il software BORIS. Sono stati scelti 13 punti chiave sul volto di indri per costruire un modello in grado di stimare i movimenti facciali. I frame etichettati, costituenti il training dataset, erano 1846. Dopo la fase di train e test, sono state generati file contenenti le coordinate dei punti, successivamente convertite in matrici di distanza. A questo punto, sono state applicate tecniche di machine learning così da discriminare, dalle matrici complete di tutti i punti, la compresenza o meno di fonazione. I risultati indicano un’alta percentuale di corretta classificazione. Successivamente è stato eseguito un K-means clustering che identificato 13 cluster. Come validazione, ho riassegnato con un modello Discriminante a questi 13 cluster i frame utilizzati per le analisi con un elevato tasso di corretta classificazione. Le classi ottenute hanno mostrato una suddivisione basata in parte sulla variazione dei punti del volto (apertura boccale durante l’alimentazione o l’emissione di vocalizzazioni) ma, nella definizione dei gruppi, ha influito anche l’angolo di ripresa. Il risultato comporta la presenza di gruppi diversi con frame contenenti movimenti facciali simili, ma ripresi da angolazioni differenti. Lo studio ha permesso di porre le basi nella creazione di un modello applicabile universalmente all’analisi dei movimenti facciali.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
927565_ep_tesi_final.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 2.03 MB
Formato Adobe PDF
2.03 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/54014