Lo studio della comunicazione attraverso segnali visivi, come i movimenti facciali, ha sempre presentato sfide metodologiche significative. La maggior parte delle tecniche disponibili, come l’AnimalFACS, descrivono i movimenti facciali principalmente in termini di categorie discrete. Questo richiede la presenza di un operatore umano che identifichi manualmente le singole contrazioni muscolari, osservando frame by frame i video registrati. Di conseguenza, questo processo richiede molto tempo per identificare e annotare i movimenti facciali, aumentando la possibilità di errori umani. In questo contesto, l’uso di tecniche di machine learning potrebbe rappresentare un nuovo strumento efficiente per estrarre automaticamente dati quantitativi che descrivono i movimenti facciali. Il mio studio mira a contribuire allo sviluppo di una nuova metodologia basata sull’uso di reti neurali profonde per il tracciamento automatico dei movimenti facciali, utilizzando come specie modello Saguinus oedipus. In particolare, si intende verificare la capacità di discriminare automaticamente le espressioni associate alle vocalizzazioni da quelle non associate, cercando anche di identificarle e descriverle in relazione ai contesti comportamentali considerati per la specie in studio. La raccolta dei dati è stata effettuata nel Parco Zoologico e Botanico di Mulhouse, registrando principalmente il volto di cinque individui di tamarini edipo per tre mesi, ottenendo un totale di 3187 clip suddivise in Facial (suddivise in 7 contesti comportamentali) e Co-occorrenza. Utilizzando il software DeepLabcut, sono stati estratti ed etichettati 10 frame per video, indicando la posizione di 13 punti chiave che identificano specifiche aree facciali della specie in esame. Con le coordinate di questi punti, è stato addestrato un modello in grado di riconoscere automaticamente i marker, ottenendo un indice di errore inferiore a 4 pixel rispetto a una risoluzione totale di 960x540 pixel. Dopo aver trasformato le coordinate in matrici di distanza, queste sono state ridotte dimensionalmente e, con l’analisi delle componenti principali, sono state individuate le variabili con un alto tasso di variabilità nel campione (Autovalore >1, N = 8). Le gesture facciali associate e non associate alla vocalizzazione e le gesture registrate in contesti comportamentali sono state classificate attraverso diversi algoritmi di machine learning. Il classificatore Random Forest ha restituito una percentuale di assegnazione corretta decisamente superiore alle altre due tecniche (80% ± 0.8) per le espressioni fonate e non fonate. Per la classificazione dei movimenti facciali in contesti comportamentali, la tecnica migliore è stata ancora Random Forest (52% ± 3.4), che ha mostrato una assegnazione corretta al contesto superiore alla soglia prevista da una assegnazione casuale. Questi risultati dimostrano l’efficacia del deep learning per mappare le variazioni quantitative dei movimenti facciali nei primati. In particolare, permettono di ampliare il campo di ricerca anche su specie che sono state poco studiate e di pianificare analisi comparative.

La Co-occorrenza tra Facial gestures e Vocalizzazioni in saguinus oedipus analizzata attraverso il Deep Learning

CURAGI GORIO, DAYANNA
2022/2023

Abstract

Lo studio della comunicazione attraverso segnali visivi, come i movimenti facciali, ha sempre presentato sfide metodologiche significative. La maggior parte delle tecniche disponibili, come l’AnimalFACS, descrivono i movimenti facciali principalmente in termini di categorie discrete. Questo richiede la presenza di un operatore umano che identifichi manualmente le singole contrazioni muscolari, osservando frame by frame i video registrati. Di conseguenza, questo processo richiede molto tempo per identificare e annotare i movimenti facciali, aumentando la possibilità di errori umani. In questo contesto, l’uso di tecniche di machine learning potrebbe rappresentare un nuovo strumento efficiente per estrarre automaticamente dati quantitativi che descrivono i movimenti facciali. Il mio studio mira a contribuire allo sviluppo di una nuova metodologia basata sull’uso di reti neurali profonde per il tracciamento automatico dei movimenti facciali, utilizzando come specie modello Saguinus oedipus. In particolare, si intende verificare la capacità di discriminare automaticamente le espressioni associate alle vocalizzazioni da quelle non associate, cercando anche di identificarle e descriverle in relazione ai contesti comportamentali considerati per la specie in studio. La raccolta dei dati è stata effettuata nel Parco Zoologico e Botanico di Mulhouse, registrando principalmente il volto di cinque individui di tamarini edipo per tre mesi, ottenendo un totale di 3187 clip suddivise in Facial (suddivise in 7 contesti comportamentali) e Co-occorrenza. Utilizzando il software DeepLabcut, sono stati estratti ed etichettati 10 frame per video, indicando la posizione di 13 punti chiave che identificano specifiche aree facciali della specie in esame. Con le coordinate di questi punti, è stato addestrato un modello in grado di riconoscere automaticamente i marker, ottenendo un indice di errore inferiore a 4 pixel rispetto a una risoluzione totale di 960x540 pixel. Dopo aver trasformato le coordinate in matrici di distanza, queste sono state ridotte dimensionalmente e, con l’analisi delle componenti principali, sono state individuate le variabili con un alto tasso di variabilità nel campione (Autovalore >1, N = 8). Le gesture facciali associate e non associate alla vocalizzazione e le gesture registrate in contesti comportamentali sono state classificate attraverso diversi algoritmi di machine learning. Il classificatore Random Forest ha restituito una percentuale di assegnazione corretta decisamente superiore alle altre due tecniche (80% ± 0.8) per le espressioni fonate e non fonate. Per la classificazione dei movimenti facciali in contesti comportamentali, la tecnica migliore è stata ancora Random Forest (52% ± 3.4), che ha mostrato una assegnazione corretta al contesto superiore alla soglia prevista da una assegnazione casuale. Questi risultati dimostrano l’efficacia del deep learning per mappare le variazioni quantitative dei movimenti facciali nei primati. In particolare, permettono di ampliare il campo di ricerca anche su specie che sono state poco studiate e di pianificare analisi comparative.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
954677_tesi_curagi_gorio_pdf.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 17.32 MB
Formato Adobe PDF
17.32 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/145217