Analisi e sviluppo di dataset sintetici per applicazioni retail basate su ML

Interest in neural networks dates back to the middle of the last century, but they were abandoned a few decades after their creation; what decreed their decline was the necessity of large amounts of data and computing power required to train them. Thanks to modern advancements neural networks have seen a resurgence and are now employed in many fields such as medicine, education and even retail which will be the focus of this work. Although acquiring this amount of data is not a problem nowadays, this is not enough to train networks; in fact, many of these collected data must be preprocessed or annotated by humans before taking advantage of. For this reason, more and more databases come with large amounts of data already annotated. These databases are very useful for general purposes, but they become unusable when the goals are very specific. In order to solve this problem one of the most used solutions consists in synthetic datasets. For this reason in our project the goal is to automatically produce an image dataset, then we pass the images to a network that deals with extracting and classifying objects in it. In particular, we focused on the 3D rendering of both the scene and the objects in order to improve the results of the network. Finally, since some important data relating to the products (e.g. the price) are in textual form, we tested some optical character recognition techniques to recover this information. Although the process has not yet been completed, some tests have suggested the best ways to go. As for object detection, on the other hand, improvements have been found thanks to the refinement of the 3D models.

L'interesse per le reti neurali risale alla metà del secolo scorso, ma sono state abbandonate pochi decenni dopo la loro creazione; ciò che ha decretato il loro declino è stata la necessità di grandi quantità di dati e potenza di calcolo necessaria per addestrarli. Grazie ai moderni progressi, le reti neurali hanno visto una rinascita e sono ora impiegate in molti campi come la medicina, l'istruzione e persino la vendita al dettaglio, che saranno al centro di questo lavoro. Sebbene acquisire questa quantità di dati non sia un problema al giorno d'oggi, questo non è sufficiente per addestrare le reti; infatti, molti di questi dati raccolti devono essere pre-elaborati o annotati dagli esseri umani prima di poterne usufruire. Per questo motivo, sempre più database vengono forniti con grandi quantità di dati già annotati. Questi database sono molto utili per scopi generali, ma diventano inutilizzabili quando gli obiettivi sono molto specifici. Per risolvere questo problema una delle soluzioni più utilizzate consiste in dataset sintetici. Per questo motivo nel nostro progetto l'obiettivo è produrre automaticamente un dataset di immagini, le quali vengono passate ad una rete che si occupa di estrarre e classificare gli oggetti al suo interno. In particolare, ci siamo concentrati sul rendering 3D sia della scena che degli oggetti al fine di migliorare i risultati della rete. Infine, poiché alcuni dati importanti relativi ai prodotti (es. il prezzo) sono in forma testuale, abbiamo testato alcune tecniche di riconoscimento ottico dei caratteri per recuperare queste informazioni. Sebbene il processo non sia ancora stato completato, alcuni test hanno suggerito le migliori strade da percorrere. Per quanto riguarda il rilevamento degli oggetti, invece, sono stati riscontrati miglioramenti grazie al perfezionamento dei modelli 3D.