This work explores the use of artificial intelligence applied to histological images to improve the classification of dysplasia grade in rectal polyps, with a focus on a biologically plausible data augmentation approach. The main issue addressed in this research is the dataset imbalance, where high-grade dysplasia images are underrepresented. To solve this problem, a model has been developed that combines supervised contrastive learning techniques with a synthetic histological image generator. The generator is fed with segmentation masks of cells and glands to produce realistic and diverse images, with particular attention to biological accuracy. The augmentation pipeline includes traditional techniques such as erosion, dilation, and rotation, but also innovative approaches like CopyPaste and DirectionShift, developed in consultation with medical experts, to simulate some of the cellular changes typical of high-grade dysplasia. The results obtained indicate that the use of targeted data augmentation techniques and a pre-trained generator improves the model's performance, enhancing generalization on new data and reducing overfitting, with promising applications in automatic diagnostics. The conclusions suggest that integrating biological knowledge into the design of augmentation methods could open new avenues in medical image processing.
Questo lavoro esplora l'uso dell'intelligenza artificiale applicata alle immagini istologiche per migliorare la classificazione del grado di displasia nei polipi rettali, con un focus sull'approccio di data augmentation biologicamente plausibile. Il problema principale affrontato in questa ricerca è il disequilibrio del dataset, in cui le immagini di alto grado di displasia sono sottorappresentate. Per risolvere questo problema, è stato sviluppato un modello che combina tecniche di contrastive learning supervisionato con un generatore di immagini istologiche sintetiche. Il generatore è alimentato da maschere di segmentazione delle cellule e delle ghiandole, per produrre immagini realistiche e diversificate, con un'attenzione particolare all'accuratezza biologica. La pipeline di augmentation include tecniche tradizionali come erosione, dilatazione e rotazione, ma anche approcci innovativi come il CopyPaste e il DirectionShift, sviluppati in consultazione con medici esperti, per simulare alcuni dei cambiamenti cellulari tipici di un alto grado di displasia. I risultati ottenuti indicano che l'uso di tecniche di data augmentation mirate e un generatore pre-addestrato migliora le prestazioni del modello, aumentando la generalizzazione su nuovi dati e riducendo l'overfitting, con applicazioni promettenti nel campo della diagnostica automatica. Le conclusioni suggeriscono che l'integrazione di conoscenze biologiche nella progettazione dei metodi di augmentation possa aprire nuove strade nell'elaborazione delle immagini mediche.
Data Augmentation basata su principi biologici per la classificazione delle immagini istologiche tramite Contrastive Learning
CRAPAROTTA, ROBERTO
2023/2024
Abstract
Questo lavoro esplora l'uso dell'intelligenza artificiale applicata alle immagini istologiche per migliorare la classificazione del grado di displasia nei polipi rettali, con un focus sull'approccio di data augmentation biologicamente plausibile. Il problema principale affrontato in questa ricerca è il disequilibrio del dataset, in cui le immagini di alto grado di displasia sono sottorappresentate. Per risolvere questo problema, è stato sviluppato un modello che combina tecniche di contrastive learning supervisionato con un generatore di immagini istologiche sintetiche. Il generatore è alimentato da maschere di segmentazione delle cellule e delle ghiandole, per produrre immagini realistiche e diversificate, con un'attenzione particolare all'accuratezza biologica. La pipeline di augmentation include tecniche tradizionali come erosione, dilatazione e rotazione, ma anche approcci innovativi come il CopyPaste e il DirectionShift, sviluppati in consultazione con medici esperti, per simulare alcuni dei cambiamenti cellulari tipici di un alto grado di displasia. I risultati ottenuti indicano che l'uso di tecniche di data augmentation mirate e un generatore pre-addestrato migliora le prestazioni del modello, aumentando la generalizzazione su nuovi dati e riducendo l'overfitting, con applicazioni promettenti nel campo della diagnostica automatica. Le conclusioni suggeriscono che l'integrazione di conoscenze biologiche nella progettazione dei metodi di augmentation possa aprire nuove strade nell'elaborazione delle immagini mediche.File | Dimensione | Formato | |
---|---|---|---|
Craparotta_Tesi_Magistrale-4.pdf
non disponibili
Dimensione
18.05 MB
Formato
Adobe PDF
|
18.05 MB | Adobe PDF |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.14240/164313