Neural networks are used today in many fields of society with remarkable performances. However, their inner workings are poorly understood. This thesis aims to be part of a modern line of research analysing the learning dynamics of neural networks through a physical lens. The main idea is to characterise how the internal representations of the data evolve through training in regression neural networks and explore the relations between these dynamics and the ability of the networks to generalise beyond the training data. We propose to characterize the relevant aspects of the internal representation dynamics using geometric and information-theoretic metrics. This approach provides a new perspective on recently observed puzzling phenomena, such as the non-monotonic training dynamics of some geometric observables, with potential applications in the field of explainable AI.
Le reti neurali sono utilizzate oggi in molti campi della società a causa delle loro incredibile prestazioni. Tuttavia, i loro meccanismi interni sono ancora poco compresi. Questa tesi si propone di far parte di una moderna linea di ricerca che analizza le dinamiche di apprendimento delle reti neurali tramite la lente della fisica. L'idea principale è di studiare le reti neurali di regressione caratterizzando come le rappresentazioni interne dei dati evolvano durante l'addestramento; ed esplorare le relazioni tra queste dinamiche e la capacità delle reti di generalizzare oltre i dati di addestramento. Si propone di caratterizzare gli aspetti rilevanti della dinamica della rappresentazione interna utilizzando metriche geometriche e di teoria dell'informazione. Questo approccio fornisce una nuova prospettiva su fenomeni osservati di recente, come dinamiche non monotone di alcune osservabili geometriche durante l’addestramento, con potenziali applicazioni al campo dell’explainable AI.
Compressione geometrica della rappresentazione interna in problemi di regressione tramite reti neurali
MILANESIO, FEDERICO
2022/2023
Abstract
Le reti neurali sono utilizzate oggi in molti campi della società a causa delle loro incredibile prestazioni. Tuttavia, i loro meccanismi interni sono ancora poco compresi. Questa tesi si propone di far parte di una moderna linea di ricerca che analizza le dinamiche di apprendimento delle reti neurali tramite la lente della fisica. L'idea principale è di studiare le reti neurali di regressione caratterizzando come le rappresentazioni interne dei dati evolvano durante l'addestramento; ed esplorare le relazioni tra queste dinamiche e la capacità delle reti di generalizzare oltre i dati di addestramento. Si propone di caratterizzare gli aspetti rilevanti della dinamica della rappresentazione interna utilizzando metriche geometriche e di teoria dell'informazione. Questo approccio fornisce una nuova prospettiva su fenomeni osservati di recente, come dinamiche non monotone di alcune osservabili geometriche durante l’addestramento, con potenziali applicazioni al campo dell’explainable AI.File | Dimensione | Formato | |
---|---|---|---|
884369_tesi.pdf
non disponibili
Tipologia:
Altro materiale allegato
Dimensione
5.77 MB
Formato
Adobe PDF
|
5.77 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/104949