In recent years, with the improvement of artificial neural networks and the increasing use of voice assistants (VPA), the problem of voice spoofing attacks has emerged through the generation of voice samples similar to the human voice. An attacker could exploit voice recordings or samples to carry out attacks targeting the VPA owner’s security. The objective of this thesis is to analyze some of the opensource TTS (text-to-speech) models to evaluate their capabilities in breaching the native voice recognition systems of VPAs. We know that there are highly performant neural network models available (such as those from OpenAI and ElevenLabs), but they often require payment for the use of their tokens. This phenomenon has motivated our choice to focus on the use and improvement of free open-source models, which pose a privacy risk since they can potentially be implemented by anyone. To verify this, we have developed a system that, starting from a voice sample, creates a dataset and trains various artificial neural network models to replicate the human voice, subsequently broadcasting it through a speaker. The analysis demonstrated that several open-source TTS models, such as XTTS v2, Tacotron 2, Glow-TTS, and VITS, are capable of generating highly realistic synthetic voices that can effectively breach VPA security. The study highlighted the vulnerabilities in current VPA systems and underscored the need for improved security measures to mitigate potential risks posed by advanced TTS technologies.
Negli ultimi anni con il miglioramento delle reti neurali artificiali e con il sempre più frequente utilizzo degli assistenti vocali (VPA), si sta presentando il problema degli attacchi di voice spoofing mediante la generazione di campioni vocali simili alla voce umana. Un trasgressore potrebbe sfruttare registrazioni vocali o campioni di voce per realizzare attacchi che mirano alla sicurezza del proprietario del VPA. L’obbiettivo dell’elaborato è, infatti, quello di analizzare alcuni tra i modelli TTS(text-to-speech) open source per verificare le loro capacità di violazione dei sistemi di riconoscimento della voce nativi dei VPA. Sappiamo che sono disponibili modelli di reti neurali decisamente performanti (OpenAI e ElevenLabs), ma che spesso richiedono denaro per l’utilizzo dei loro token; questo fenomeno ha motivato la scelta di indirizzare il nostro lavoro verso l’utilizzo ed il miglioramento di modelli open source gratuiti e che quindi rappresentano un rischio per la privacy, siccome implementabili potenzialmente da chiunque. Per verificare ciò abbiamo realizzato un sistema che partendo da un campione vocale, crea un dataset ed addestra vari modelli di reti neurali artificiali per replicare la voce umana, diffondendola successivamente con uno speaker. L’analisi ha dimostrato che diversi modelli TTS opensource, come XTTS v2, Tacotron 2, Glow-TTS e VITS, sono in grado di generare voci sintetiche altamente realistiche che possono violare efficacemente la sicurezza dei VPA. Lo studio ha evidenziato le vulnerabilità nei sistemi VPA attuali e ha sottolineato la necessità di migliorare le misure di sicurezza per mitigare i potenziali rischi posti dalle tecnologie TTS avanzate.
La voce della macchina: esplorazione dei modelli di intelligenza artificiale per la sintesi vocale umana
OLIVERO, MATTEO
2023/2024
Abstract
Negli ultimi anni con il miglioramento delle reti neurali artificiali e con il sempre più frequente utilizzo degli assistenti vocali (VPA), si sta presentando il problema degli attacchi di voice spoofing mediante la generazione di campioni vocali simili alla voce umana. Un trasgressore potrebbe sfruttare registrazioni vocali o campioni di voce per realizzare attacchi che mirano alla sicurezza del proprietario del VPA. L’obbiettivo dell’elaborato è, infatti, quello di analizzare alcuni tra i modelli TTS(text-to-speech) open source per verificare le loro capacità di violazione dei sistemi di riconoscimento della voce nativi dei VPA. Sappiamo che sono disponibili modelli di reti neurali decisamente performanti (OpenAI e ElevenLabs), ma che spesso richiedono denaro per l’utilizzo dei loro token; questo fenomeno ha motivato la scelta di indirizzare il nostro lavoro verso l’utilizzo ed il miglioramento di modelli open source gratuiti e che quindi rappresentano un rischio per la privacy, siccome implementabili potenzialmente da chiunque. Per verificare ciò abbiamo realizzato un sistema che partendo da un campione vocale, crea un dataset ed addestra vari modelli di reti neurali artificiali per replicare la voce umana, diffondendola successivamente con uno speaker. L’analisi ha dimostrato che diversi modelli TTS opensource, come XTTS v2, Tacotron 2, Glow-TTS e VITS, sono in grado di generare voci sintetiche altamente realistiche che possono violare efficacemente la sicurezza dei VPA. Lo studio ha evidenziato le vulnerabilità nei sistemi VPA attuali e ha sottolineato la necessità di migliorare le misure di sicurezza per mitigare i potenziali rischi posti dalle tecnologie TTS avanzate.File | Dimensione | Formato | |
---|---|---|---|
976609_tesi___matteo_olivero.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
1.14 MB
Formato
Adobe PDF
|
1.14 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/111716