 |
METODI STATISTICI
PER LO STUDIO DI DATI GENOMICI
(A.A. 2005)
Alessandro Bonaita, Università di Pavia - Facoltà di
Economia
Relatore: Paolo Giudici
Il nostro obiettivo è stato quello di costruire
validi modelli statistici che, prescindendo dalla natura della malattia
in esame e dalle funzioni biologiche tipiche dei geni esaminati, permettessero
di ottenere una elevata capacità di corretta determinazione del
fenomeno obiettivo dell’indagine (in questo caso lo stato “malato” del
paziente) sulla base dell’analisi di una grande base di dati (costituita
da 112.896 espressioni geniche) e di un elevato numero di variabili esplicative
(i 224 geni originari). I dati analizzati sono stati ottenuti da un laboratorio
genetico che opera analisi statistica per la prevenzione e il monitoraggio
di alcune patologie.
L’obiettivo di questa nostra ricerca è stato la costruzione
di modelli statistici previsivi dello stato di malattia del paziente sulla
base dell’analisi dell’attività dei suoi geni (si veda
ad esempio, Lange W. (2002). In particolare il focus è quello
costruire un modello statistico predittivo in grado di identificare lo
stato di malattia del paziente sulla base del comportamento dei suoi geni.
A tale scopo il data set è stato sottoposto ad un processo di applicazione
di metodologie classiche: analisi esplorativa, analisi delle associazioni,
analisi della correlazione, cluster analysis ed infine costruzione, valutazione
e confronto di modelli statistici previsivi. Quale sottoprodotto della
costruzione di validi modelli predittivi è stata ottenuta l’identificazione
dei geni maggiormente correlati alla manifestazione delle patologie presenti
nel data set (e di cui non era nota a priori la natura).
La correlazione
tra i geni è stata calcolata sia sul data set intero che con riferimento
ai singoli gruppi di tessuto (colon, fegato, ovaie, prostata, polmoni,
reni, seno, tessuti adiposi) dai quali sono stati ricavati i campioni
biologici esaminati, gruppi suddivisi a loro volta in due partizioni a
seconda che i relativi campioni fossero sani o malati. Tali modelli sono
stati realizzati per il data set completo e per due sue partizioni, quelle
relative ai campioni biologici estratti da tessuti di colon e di polmone
(gli unici aventi una numerosità tale da garantire una sufficiente
stabilità delle previsioni). In tutti i casi la validità dei
modelli è stata testata sia su data set di allenamento che su data
set di validazione; in questo modo se ne è potuta verificare l’efficacia
su dati diversi da quelli che hanno contribuito alla costruzione degli
specifici modelli. La selezione delle variabili esplicative (rappresentate
dai geni) è stata svolta sulla base di due procedure alternative.
La prima è consistita in un test classico del chi-quadro, valutante
il grado di associazione tra le variabili sulla base della costruzione
di tabelle di contingenza. La seconda procedura è invece frutto
della “marker selection” (si veda ad esempio Speed T. (2003),
metodologia capace di classificare e selezionare i geni sulla base del
grado di attivazione del marcatore. Per ciascuna delle due procedura di
selezione sono stati costruiti e confrontati due diversi modelli predittivi:
quello dell’analisi di segmentazione (meglio noto come “albero
decisionale”) e quello della regressione logistica.
In due casi
su tre la regressione logistica si è dimostrata migliore nel prevedere
in modo più accurato lo stato di malattia dei pazienti. In tali
confronti si è spesso ricorso all’uso di matrici di confusione
in grado di evidenziare la differente capacità di previsione del
modello per i pazienti sani e per quelli malati. Il criterio da noi adottato
ha condotto a preferire quei modelli in gradi di massimizzare la corretta
previsione di individui sani e di minimizzare gli errori di I tipo (prevedere
come sani individui in realtà malati): si è infatti ritenuto
che i costi di tali errori fossero maggiori, sia da un punto di vista
medico che umano, rispetto alla previsione della malattia quando il paziente è in
realtà sano (errori del II tipo).
Questa analisi è stata possibile grazie alla disponibilità di
SAS Base, Stat e Enterprise Miner.
|
 |
 |
 |
| Articolo
tratto da Affari & Finanza |
|
|
 |
(pdf,
107 Kb) |
|
|
| |
|