Il presente lavoro muove i suoi primi passi da un contributo pubblicato nel 2012, "Algebraic Methods for Studying Interactions Between Epidemiological Variables", in cui vengono presentati metodi di statistica algebrica per studiare la dipendenza tra coppie di variabili genetiche e la comparsa di diversi tipi di patologie. Sfruttando la teoria delle basi di Groebner, delle basi di Markov e delle varietà toriche (che in questo elaborato vengono affrontate nei primi due capitoli), si sviluppa un test d'ipotesi per modelli di indipendenza basato sull'algoritmo di Diaconis-Sturmfels. Questo metodo, confrontato con un classico test chi-quadro, risulta più efficace in casi in cui non sia disponibile un gran numero di dati. Uno dei limiti di questo approccio, come sottolineato dagli stessi autori, è però quello di affrontare lo studio di indipendenza solo di due variabili rispetto ad una terza, sapendo inoltre che tali variabili possono essere esclusivamente binarie o ternarie, fatto che rende inutilizzabili in altri contesti le procedure che per questo lavoro sono state implementate in Maple. Proprio da qui nasce l'idea di questa tesi, il cui obiettivo principale è stato quello di costruire una serie di procedure in Maple, ora organizzate in un vero e proprio pacchetto, per applicare questo algoritmo ad un modello di indipendenza tra un numero arbitrario di variabili aleatorie che assumano un numero qualsiasi (ovviamente finito) di valori. Semplicemente a partire da un file Excel contenente i dati scritti in modo opportuno, i comandi a disposizione permettono di calcolare il p-value e ottenere altre informazioni relative al modello di indipendenza, come ad esempio la matrice associata e il vettore delle frequenze delle osservazioni, senza bisogno che l'utente conosca la teoria su cui questo metodo si basa. Il codice del pacchetto e un'approfondita descrizione di come utilizzare ogni comando, riportati nel terzo capitolo di questo elaborato, saranno presto disponibili e liberamente scaricabili dall'Application Center della Maplesoft. Infine, nel quarto ed ultimo capitolo, presentiamo una reale applicazione di questo pacchetto, che si inserisce all'interno di una ricerca dell'Unità di Transizione per Neoplasie Curate in Età Pediatrica dell'Ospedale Molinette di Torino, con l'obiettivo di individuare eventuali interazioni (o confermare quelle già in parte note) tra cure antitumorali ricevute dai pazienti durante l'infanzia e patologie che si presentano negli stessi soggetti in età adulta.

Metodi algebrici per modelli di indipendenza: una implementazione in Maple

TRIOLO, VALENTINA
2012/2013

Abstract

Il presente lavoro muove i suoi primi passi da un contributo pubblicato nel 2012, "Algebraic Methods for Studying Interactions Between Epidemiological Variables", in cui vengono presentati metodi di statistica algebrica per studiare la dipendenza tra coppie di variabili genetiche e la comparsa di diversi tipi di patologie. Sfruttando la teoria delle basi di Groebner, delle basi di Markov e delle varietà toriche (che in questo elaborato vengono affrontate nei primi due capitoli), si sviluppa un test d'ipotesi per modelli di indipendenza basato sull'algoritmo di Diaconis-Sturmfels. Questo metodo, confrontato con un classico test chi-quadro, risulta più efficace in casi in cui non sia disponibile un gran numero di dati. Uno dei limiti di questo approccio, come sottolineato dagli stessi autori, è però quello di affrontare lo studio di indipendenza solo di due variabili rispetto ad una terza, sapendo inoltre che tali variabili possono essere esclusivamente binarie o ternarie, fatto che rende inutilizzabili in altri contesti le procedure che per questo lavoro sono state implementate in Maple. Proprio da qui nasce l'idea di questa tesi, il cui obiettivo principale è stato quello di costruire una serie di procedure in Maple, ora organizzate in un vero e proprio pacchetto, per applicare questo algoritmo ad un modello di indipendenza tra un numero arbitrario di variabili aleatorie che assumano un numero qualsiasi (ovviamente finito) di valori. Semplicemente a partire da un file Excel contenente i dati scritti in modo opportuno, i comandi a disposizione permettono di calcolare il p-value e ottenere altre informazioni relative al modello di indipendenza, come ad esempio la matrice associata e il vettore delle frequenze delle osservazioni, senza bisogno che l'utente conosca la teoria su cui questo metodo si basa. Il codice del pacchetto e un'approfondita descrizione di come utilizzare ogni comando, riportati nel terzo capitolo di questo elaborato, saranno presto disponibili e liberamente scaricabili dall'Application Center della Maplesoft. Infine, nel quarto ed ultimo capitolo, presentiamo una reale applicazione di questo pacchetto, che si inserisce all'interno di una ricerca dell'Unità di Transizione per Neoplasie Curate in Età Pediatrica dell'Ospedale Molinette di Torino, con l'obiettivo di individuare eventuali interazioni (o confermare quelle già in parte note) tra cure antitumorali ricevute dai pazienti durante l'infanzia e patologie che si presentano negli stessi soggetti in età adulta.
ITA
IMPORT DA TESIONLINE
File in questo prodotto:
File Dimensione Formato  
319301_tesi_triolo.pdf

non disponibili

Tipologia: Altro materiale allegato
Dimensione 591.99 kB
Formato Adobe PDF
591.99 kB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14240/59734