SAS
News Formazione Partner Academic Opportunitą di Lavoro Contattateci Resource Center
Home Soluzioni e Tecnologie Referenze eventi Supporto Clienti Servizi e Formazione Chi Siamo www.sas.com

METODI STATISTICI PER LO STUDIO DI DATI GENOMICI
(A.A. 2005)
Alessandro Bonaita, Università di Pavia - Facoltà di Economia
Relatore: Paolo Giudici

Il nostro obiettivo è stato quello di costruire validi modelli statistici che, prescindendo dalla natura della malattia in esame e dalle funzioni biologiche tipiche dei geni esaminati, permettessero di ottenere una elevata capacità di corretta determinazione del fenomeno obiettivo dell’indagine (in questo caso lo stato “malato” del paziente) sulla base dell’analisi di una grande base di dati (costituita da 112.896 espressioni geniche) e di un elevato numero di variabili esplicative (i 224 geni originari). I dati analizzati sono stati ottenuti da un laboratorio genetico che opera analisi statistica per la prevenzione e il monitoraggio di alcune patologie.

L’obiettivo di questa nostra ricerca è stato la costruzione di modelli statistici previsivi dello stato di malattia del paziente sulla base dell’analisi dell’attività dei suoi geni (si veda ad esempio, Lange W. (2002). In particolare il focus è quello costruire un modello statistico predittivo in grado di identificare lo stato di malattia del paziente sulla base del comportamento dei suoi geni. A tale scopo il data set è stato sottoposto ad un processo di applicazione di metodologie classiche: analisi esplorativa, analisi delle associazioni, analisi della correlazione, cluster analysis ed infine costruzione, valutazione e confronto di modelli statistici previsivi. Quale sottoprodotto della costruzione di validi modelli predittivi è stata ottenuta l’identificazione dei geni maggiormente correlati alla manifestazione delle patologie presenti nel data set (e di cui non era nota a priori la natura).

La correlazione tra i geni è stata calcolata sia sul data set intero che con riferimento ai singoli gruppi di tessuto (colon, fegato, ovaie, prostata, polmoni, reni, seno, tessuti adiposi) dai quali sono stati ricavati i campioni biologici esaminati, gruppi suddivisi a loro volta in due partizioni a seconda che i relativi campioni fossero sani o malati. Tali modelli sono stati realizzati per il data set completo e per due sue partizioni, quelle relative ai campioni biologici estratti da tessuti di colon e di polmone (gli unici aventi una numerosità tale da garantire una sufficiente stabilità delle previsioni). In tutti i casi la validità dei modelli è stata testata sia su data set di allenamento che su data set di validazione; in questo modo se ne è potuta verificare l’efficacia su dati diversi da quelli che hanno contribuito alla costruzione degli specifici modelli. La selezione delle variabili esplicative (rappresentate dai geni) è stata svolta sulla base di due procedure alternative. La prima è consistita in un test classico del chi-quadro, valutante il grado di associazione tra le variabili sulla base della costruzione di tabelle di contingenza. La seconda procedura è invece frutto della “marker selection” (si veda ad esempio Speed T. (2003), metodologia capace di classificare e selezionare i geni sulla base del grado di attivazione del marcatore. Per ciascuna delle due procedura di selezione sono stati costruiti e confrontati due diversi modelli predittivi: quello dell’analisi di segmentazione (meglio noto come “albero decisionale”) e quello della regressione logistica.

In due casi su tre la regressione logistica si è dimostrata migliore nel prevedere in modo più accurato lo stato di malattia dei pazienti. In tali confronti si è spesso ricorso all’uso di matrici di confusione in grado di evidenziare la differente capacità di previsione del modello per i pazienti sani e per quelli malati. Il criterio da noi adottato ha condotto a preferire quei modelli in gradi di massimizzare la corretta previsione di individui sani e di minimizzare gli errori di I tipo (prevedere come sani individui in realtà malati): si è infatti ritenuto che i costi di tali errori fossero maggiori, sia da un punto di vista medico che umano, rispetto alla previsione della malattia quando il paziente è in realtà sano (errori del II tipo).

Questa analisi è stata possibile grazie alla disponibilità di SAS Base, Stat e Enterprise Miner.

  Articolo tratto da Affari & Finanza
(pdf, 107 Kb)
 

THE POWER TO KNOW
  Sitemap     Search