SAS
News Partner Academic Opportunità di Lavoro Contattateci Resource Center
Home Soluzioni e Tecnologie Referenze eventi Supporto Clienti Servizi e Formazione Chi Siamo www.sas.com

Tecniche di Data Mining e applicazioni.

Fabio Piacenza, Facoltà di Matematica, Università di Genova
Relatore: Ivano Repetto

La presente tesi tratta alcune delle principali tecniche statistiche utilizzate nel Data Mining. Il termine Data Mining viene introdotto nel linguaggio statistico verso la fine degli anni'80 per indicare un particolare approccio metodologico per l'analisi dei dati, che ha visto in quest'ultimo decennio una vastissima gamma di applicazioni in diversi campi, come ad esempio quello economico.
Può essere utile vedere qual'è la traduzione letterale del termine: to mine in inglese significa scavare per estrarre ed è un verbo solitamente usato per azioni compiute nelle miniere; l'associazione del verbo alla parola data rende l'idea di come vi sia una ricerca in profondità per trovare utili e nascoste informazioni nei dati. Il termine Data Mining, quindi, identifica un processo di esplorazione e di modellizzazione di grandi moli di dati, finalizzato all'estrazione dell'informazione in essi contenuta.

La capacità degli attuali strumenti informatici di raccogliere e memorizzare quantità sempre maggiori di dati, ha fatto aumentare notevolmente la disponibilità di informazioni da sottoporre ad analisi statistiche. Di fronte ad una tale esplosione di dati, l'uso singolo e separato delle diverse tecniche di analisi statistica risulta spesso incapace di gestire il patrimonio informativo in essi contenuto. In questa situazione di sovrabbondanza, il Data Mining viene utilizzato per scoprire particolari relazioni fra i dati, anche quelle apparentemente meno significative o sconosciute a priori. Nel Data Mining viene fatto ampio uso delle tecniche statistiche multivariate, cioè di quelle tecniche che vengono applicate a dati riguardanti popolazioni su cui vengono rilevate più variabili.

Questi dati vengono, come sempre si fa in statistica, organizzati sotto forma di matrice in cui le righe sono le unità statistiche (o osservazioni) e le colonne sono le variabili. (In particolare, vengono considerate delle tecniche statistiche multivariate nei capitoli 2, 3 e 4 della tesi).
In alcune situazioni è opportuno impostare l'attività di analisi su base campionaria, e solo in alcune circostanze è possibile lavorare sull'intera popolazione di riferimento. In seguito, sul campione dei dati viene applicata una serie di tecniche statistiche che permette, appunto, di estrarre le informazioni cercate.

E' importante notare che se nell'analisi statistica è pratica comune eliminare le osservazioni anomale, questi dati potrebbero essere proprio quello che cerchiamo, rilevando errori commessi o scoprendo comportamenti che vanno fuori dalla norma.

La tesi si sviluppa nel modo seguente: nel primo capitolo vengono trattate le tecniche di campionamento che costituiscono il primo passo fondamentale del Data Mining; nel secondo capitolo si parla dell'analisi in componenti principali che viene utilizzata per ridurre le dimensioni del problema, indicando quali sono le variabili quantitative che meglio spiegano il comportamento dei dati; il terzo capitolo riguarda l'analisi delle corrispondenze, ossia un metodo per determinare le coordinate geometriche delle modalità poste sulle righe e di quelle poste sulle colonne di una tabella di contingenza, al fine di evidenziare le eventuali relazioni di dipendenza tra i due insiemi di modalità; nel quarto capitolo viene illustrata l'analisi di raggruppamento (cluster analysis). Sotto questo termine generale si accorpano varie tecniche volte a classificare l'insieme delle unità statistiche o delle variabili in gruppi non definiti a priori. I gruppi sono definiti in modo da massimizzare l'omogeneità interna o, parallelamente, in modo da massimizzare le differenze tra i gruppi stessi. Si tratta della tecnica statistica attualmente più utilizzata nel Data Mining; nel quinto capitolo viene accennata la teoria dei test di ipotesi, e si considera, in particolare, il test sul confronto di medie; nel sesto capitolo viene trattata l'analisi della varianza a una via e a due vie. Questa tecnica statistica viene impiegata per determinare se i risultati di una variabile quantitativa dipendono o meno dall'appartenenza delle unità statistiche ad una classe di una variabile qualitativa. Alla fine di ogni capitolo viene riportata un'applicazione della tecnica statistica considerata, realizzata con il software SAS.

L'ultimo capitolo contiene un'analisi di Data Mining su dati ambientali, riguardanti le rilevazioni di parametri chimici e chimico-fisici nell'area dell'Acna di Cengio. In questa applicazione viene effettuata, tra l'altro, un'analisi di raggruppamento delle rilevazioni.

 
SAS Academic

The Power to Know
  Sitemap      P.IVA 08517850155     Terms of Use & Legal Information     Privacy Statement    Copyright © 2008 SAS Institute Inc. All Rights Reserved