This work compares the performance obtained by hybrid RNN-CNN based architectures (RNN with DenseNet or ResNet CNN blocks) with Transformer-based architectures (TimeSFormer, VideoMAE) for the execution of the driver action recognition task starting from video data containing various in-vehicle behaviors (e.g., looking left/right, operating the radio). The video dataset was recorded and pre-processed by the authors. All models were tested using a 10-fold cross-validation on the dataset to provide more statistically accurate test accuracy values. The results show, after considering multiple temporal subsample strategies (WindowBasedTemporalSubsample, SimpleWindowBasedTemporalSubsample), frame counts (4, 8, 12, 16) and frame offsets (1, 6, 11), that the CNN hybrid approach achieves competitive accuracy, with minimal variation compared to Transformer-based approaches. Considering the real-time nature of the task, CNN hybrid architectures appear to be a more efficient solution, as Transformer-based models do not consistently perform better despite their higher complexity. This study provides insight into the best trade-off between model complexity and accuracy to tackle the driver action recognition task.
Questo lavoro confronta le prestazioni ottenute da architetture ibride basate su RNN-CNN (RNN con blocchi CNN DenseNet o ResNet) con quelle basate su Transformer (TimeSFormer, VideoMAE) per l’esecuzione del task di Driver Action Recognition, a partire da dati video contenenti vari comportamenti all’interno del veicolo (ad esempio, guardare a sinistra/destra, utilizzare la radio). Il dataset video è stato registrato e pre-elaborato dagli autori. Tutti i modelli sono stati testati utilizzando una cross validation a 10 fold sul dataset, al fine di ottenere valori di accuratezza più statisticamente affidabili. I risultati mostrano che, dopo aver considerato diverse strategie di sotto-campionamento temporale (WindowBasedTemporalSubsample, SimpleWindowBasedTemporalSubsample), diversi numeri di frame (4, 8, 12, 16) e offset di frame (1, 6, 11), l’approccio ibrido CNN raggiunge un’accuratezza competitiva, con variazioni minime rispetto agli approcci basati su Transformer. Considerando la natura in tempo reale del compito, le architetture ibride CNN sembrano essere una soluzione più efficiente, poiché i modelli basati su Transformer non ottengono costantemente prestazioni migliori, nonostante la loro maggiore complessità. Questo studio fornisce indicazioni sul miglior compromesso tra complessità del modello e accuratezza per affrontare il compito di riconoscimento delle azioni del conducente.
Reti neurali profonde che usano video per la classificazione di attività alla guida
RAMPULLA, GIANMARCO
2023/2024
Abstract
Questo lavoro confronta le prestazioni ottenute da architetture ibride basate su RNN-CNN (RNN con blocchi CNN DenseNet o ResNet) con quelle basate su Transformer (TimeSFormer, VideoMAE) per l’esecuzione del task di Driver Action Recognition, a partire da dati video contenenti vari comportamenti all’interno del veicolo (ad esempio, guardare a sinistra/destra, utilizzare la radio). Il dataset video è stato registrato e pre-elaborato dagli autori. Tutti i modelli sono stati testati utilizzando una cross validation a 10 fold sul dataset, al fine di ottenere valori di accuratezza più statisticamente affidabili. I risultati mostrano che, dopo aver considerato diverse strategie di sotto-campionamento temporale (WindowBasedTemporalSubsample, SimpleWindowBasedTemporalSubsample), diversi numeri di frame (4, 8, 12, 16) e offset di frame (1, 6, 11), l’approccio ibrido CNN raggiunge un’accuratezza competitiva, con variazioni minime rispetto agli approcci basati su Transformer. Considerando la natura in tempo reale del compito, le architetture ibride CNN sembrano essere una soluzione più efficiente, poiché i modelli basati su Transformer non ottengono costantemente prestazioni migliori, nonostante la loro maggiore complessità. Questo studio fornisce indicazioni sul miglior compromesso tra complessità del modello e accuratezza per affrontare il compito di riconoscimento delle azioni del conducente.File | Dimensione | Formato | |
---|---|---|---|
Tesi Gianmarco Rampulla Matr895284 Finale 2.pdf
non disponibili
Dimensione
47.5 MB
Formato
Adobe PDF
|
47.5 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/164336