Nell’ultimo decennio grazie alla diffusione sempre più ampia delle piattaforme di streaming comunemente note si è assistito ad un aumento dei contenuti video rispetto al traffico totale di rete. Ciò ha richiesto tecniche di codifica via via sempre più ottimizzate in maniera tale da trasmettere video in alta definizione al bitrate più basso mantenendo inalterata la qualità. Al momento uno degli ultimi standard di codifica noti è l’ ISO MPEG-5 Essential Video Coding (EVC) introdotto nel 2020 composto da un profilo di baseline esente da royalty e un profilo main che include tecnologie più recenti non esenti da royalty. In questo lavoro di tesi si è cercato di sviluppare diversi modelli di reti neurali basate sulle convoluzioni mascherate con l’obiettivo di migliorare la predizione intra di EVC baseline in maniera tale da ottenere performance di codifica video migliori. Nel dettaglio, in questa tesi verrà discusso il processo effettuato per allenare i modelli proposti oltre a una descrizione dell’architettura della rete neurale utilizzata alla base di tali modelli. Con l’applicazione dei modelli proposti sviluppati al codificatore video EVC si riesce ad ottenere una riduzione del BD-rate compreso tra l'1% e il 2% a seconda dell'intervallo QP considerato, ovvero una riduzione del bitrate a parità di qualità video.
Convoluzioni mascherate per la codifica apprendibile di immagini a predizione intra
DE CENZO, DAVIDE
2022/2023
Abstract
Nell’ultimo decennio grazie alla diffusione sempre più ampia delle piattaforme di streaming comunemente note si è assistito ad un aumento dei contenuti video rispetto al traffico totale di rete. Ciò ha richiesto tecniche di codifica via via sempre più ottimizzate in maniera tale da trasmettere video in alta definizione al bitrate più basso mantenendo inalterata la qualità. Al momento uno degli ultimi standard di codifica noti è l’ ISO MPEG-5 Essential Video Coding (EVC) introdotto nel 2020 composto da un profilo di baseline esente da royalty e un profilo main che include tecnologie più recenti non esenti da royalty. In questo lavoro di tesi si è cercato di sviluppare diversi modelli di reti neurali basate sulle convoluzioni mascherate con l’obiettivo di migliorare la predizione intra di EVC baseline in maniera tale da ottenere performance di codifica video migliori. Nel dettaglio, in questa tesi verrà discusso il processo effettuato per allenare i modelli proposti oltre a una descrizione dell’architettura della rete neurale utilizzata alla base di tali modelli. Con l’applicazione dei modelli proposti sviluppati al codificatore video EVC si riesce ad ottenere una riduzione del BD-rate compreso tra l'1% e il 2% a seconda dell'intervallo QP considerato, ovvero una riduzione del bitrate a parità di qualità video.File | Dimensione | Formato | |
---|---|---|---|
782735_tesi_davide_de_cenzo.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
7.95 MB
Formato
Adobe PDF
|
7.95 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/101379