sas academic program / tesi con sas

Un confronto tra procedure per la selezione delle variabili nella regressione lineare

University ChallengeGiovanni Torchia | Università degli Studi di Roma "La Sapienza" (Ottobre 2011)
Corso di Laurea Magistrale in Statistica per la Biomedicina, l'Ambiente e la Tecnologia
Relatore: prof. Agostino Di Ciaccio
Correlatore: prof. Renato Coppi

** La Tesi ha vinto il Premio University Challenge **

Negli ultimi anni sono stati compiuti grandi sforzi nella ricerca della selezione delle variabili.
Il modello che si desidera costruire deve essere da un lato abbastanza ricco per spiegare le relazioni nei dati, dall'altro abbastanza semplice per permettere di capire, utilizzare e diffondere questi dati. È il bisogno di bilanciare questo equilibrio a far entrare in gioco i metodi di selezione.

Nella tesi supponiamo di essere interessati alla relazione che lega una variabile quantitativa Y a un certo numero J di variabili quantitative Xj. A questo scopo si cercherà di costruire un modello di regressione con Y funzione di un insieme di variabili esplicative, di cui però una parte costituisce solo un disturbo all'analisi. Il punto di vista è quello predittivo: individuare un modello che con determinate variabili si riveli in grado di predire nel modo più accurato possibile nuovi dati. E' necessario quindi selezionare le variabili "rilevanti" per migliorare la prestazione del modello e la sua affidabilità. Come metodo di ricerca del modello ottimale, abbiamo utilizzato una procedura sequenziale stepwise oppure backward, in quanto risultano utilizzabili anche dovendo analizzare un grande numero di variabili. Queste procedure si basano sulla definizione di un criterio di confronto tra modelli.

I criteri che abbiamo considerato corrispondono a 3 diversi Approcci: Criteri di confronto tra modelli basati sul concetto di informazione (AIC), Criteri basati in modo specifico sulla valutazione predittiva di un modello (Cross-Validation), Criteri basati sull'approccio Bayesiano: (BIC,Intrinsic Bayes Factor). Attraverso due simulazioni è stato possibile confrontare le prestazioni dei 4 differenti Criteri di selezione delle variabili presi in considerazione. Lo studio ha riguardato variabili esplicative quantitative, provenienti da una distribuzione multinormale, con livello (casuale) medio-basso di correlazione tra le variabili e con ε~N(0,σ2). Per valutare i risultati abbiamo considerato diversi aspetti: l'Average Squared Error (ASE), PASE, Accuratezza e Sensitività. I risultati ottenuti dipendono dal metodo sequenziale di ricerca del modello utilizzato e si riferiscono ad una situazione in cui il modello "vero" esiste e le variabili "giuste" sono state tutte osservate.