Animazione facciale non rigida basata su deformazione di mesh poligonali

The evolution of CGI technologies (Computer-Generated Imagery) led to the emergence of virtual cinematography, i.e. digital actor, which is often indistinguishable from the real actor. In blockbusters like Gravity, The Curious Case of Benjamin Button, Spiderman 3, Avatar, digital actors were created with very expensive systems like LightStage developed by Paul Debevec. LightStage is a system used for reflectance, texture and motion capture with structured light and a multi-camera setup that acquires the face of an actor in order to recreate a photorealistic reproduction through sophisticated image processing algorithms. Nevertheless, this approach is currently too expensive to be adopted in a television production process. Recently the availability of low cost motion capture devices provides an affordable alternative solution to scan 3D digital characters. The aim of this thesis, carried out at the Research Centre of Rai in Turin, was to build a pipeline for the acquisition and animation of a performer's 3D model without the use of markers and using low cost technologies such as Microsoft Kinect TM. Possible use cases are digital characters production from television human characters for interactive applications and new immersive formats based on Rai archive characters. The 3D model acquired with Kinect v1 was animated using energy functional minimization techniques and optimized differential matrix calculus. A mathematical model was defined and developed, creating a MatLab simulation and a C++ implementation using software libraries like PCL, OpenCV and Eigen. The algorithm was implemented from scratch and the generated 3D models have been compared to the ground truth models in order to prove the validity of the pipeline. Possible future developments will take into account 360° multiple cameras and GPU porting for real-time execution.

L'evoluzione delle tecnologie CGI (Computer-Generated Imagery) permette oggi la creazione e l'utilizzo di attori digitali, ossia modelli 3D dinamici che rappresentano l'attore durante l'esecuzione delle sue performance. In blockbusters come Gravity, Il curioso caso di Benjamin Button, Spiderman 3, Avatar, gli attori digitali sono stati realizzati con sistemi molto costosi come Light Stage sviluppato da Paul Debevec. Light Stage è un sistema che cattura il volto di un attore sotto tutte le direzioni di illuminazione possibili per ricrearne una riproduzione fotorealistica tramite algoritmi sofisticati di image processing. Tuttavia questo approccio è ancora troppo costoso per essere adottato in un processo produttivo televisivo. Nel frattempo sul mercato sono però comparse nuove tecnologie a costi più contenuti che potrebbero essere affiancate alle tecnologie tradizionali di ripresa per effettuare la scansione digitale 3D dei personaggi. Gli scenari di utilizzo sono molteplici: a partire dai personaggi televisivi si potrebbero generare i corrispondenti avatar digitali da utilizzare in applicazioni interattive, il patrimonio audio e video delle Teche Rai potrebbe essere utilizzato per ridare vita a personaggi del passato e creare nuovi format più immersivi. In questo contesto si colloca la tesi svolta presso il Centro Ricerche della Rai a Torino il cui scopo è stato quello di realizzare una pipeline per l'acquisizione e animazione di un modello 3D di un performer senza l'utilizzo di markers ed utilizzando tecnologie a basso costo come il sensore Microsoft Kinect. Il modello 3D acquisito con Microsoft Kinect è stato animato mediante l'utilizzo di tecniche di minimizzazione numerica applicate ad un funzionale di energia e calcolo matriciale ottimizzato. E' stato definito e sviluppato il modello matematico, simulato in MatLab e implementato in C++ utilizzando librerie software come PCL, OpenCV e Eigen. L'algoritmo è stato implementato ex-novo e i modelli generati sono stati confrontati con i corrispondenti modelli ground truth dimostrando la validità dell'approccio. Possibili sviluppi futuri riguarderanno l'utilizzo di telecamere multiple per acquisire il soggetto a 360° e l'implementazione GPU per l'esecuzione in tempo reale.