 |
Tecniche
di Data Mining e applicazioni.
Fabio Piacenza, Facoltà di Matematica, Università di
Genova
Relatore: Ivano Repetto
La presente tesi tratta alcune delle principali tecniche statistiche
utilizzate nel Data Mining. Il termine Data Mining viene introdotto nel
linguaggio statistico verso la fine degli anni'80 per indicare un particolare
approccio metodologico per l'analisi dei dati, che ha visto in quest'ultimo
decennio una vastissima gamma di applicazioni in diversi campi, come ad
esempio quello economico.
Può essere utile vedere qual'è la traduzione letterale del termine: to mine
in inglese significa scavare per estrarre ed è un verbo solitamente usato per
azioni compiute nelle miniere; l'associazione del verbo alla parola data rende
l'idea di come vi sia una ricerca in profondità per trovare utili e nascoste
informazioni nei dati. Il termine Data Mining, quindi, identifica un processo
di esplorazione e di modellizzazione di grandi moli di dati, finalizzato all'estrazione
dell'informazione in essi contenuta.
La capacità degli attuali strumenti informatici di raccogliere e memorizzare
quantità sempre maggiori di dati, ha fatto aumentare notevolmente la disponibilità di
informazioni da sottoporre ad analisi statistiche. Di fronte ad una tale esplosione
di dati, l'uso singolo e separato delle diverse tecniche di analisi statistica
risulta spesso incapace di gestire il patrimonio informativo in essi contenuto.
In questa situazione di sovrabbondanza, il Data Mining viene utilizzato per
scoprire particolari relazioni fra i dati, anche quelle apparentemente meno
significative o sconosciute a priori. Nel Data Mining viene fatto ampio uso
delle tecniche statistiche multivariate, cioè di quelle tecniche che vengono
applicate a dati riguardanti popolazioni su cui vengono rilevate più variabili.
Questi
dati vengono, come sempre si fa in statistica, organizzati sotto forma di matrice
in cui le righe sono le unità statistiche (o osservazioni) e le
colonne sono le variabili. (In particolare, vengono considerate delle tecniche
statistiche multivariate nei capitoli 2, 3 e 4 della tesi).
In alcune situazioni è opportuno impostare l'attività di analisi su base campionaria,
e solo in alcune circostanze è possibile lavorare sull'intera popolazione di
riferimento. In seguito, sul campione dei dati viene applicata una serie di
tecniche statistiche che permette, appunto, di estrarre le informazioni cercate.
E' importante notare che se nell'analisi statistica è pratica comune eliminare
le osservazioni anomale, questi dati potrebbero essere proprio quello che cerchiamo,
rilevando errori commessi o scoprendo comportamenti che vanno fuori dalla norma.
La tesi si sviluppa nel modo seguente: nel primo capitolo vengono trattate
le tecniche di campionamento che costituiscono il primo passo fondamentale
del Data Mining; nel secondo capitolo si parla dell'analisi in componenti principali
che viene utilizzata per ridurre le dimensioni del problema, indicando quali
sono le variabili quantitative che meglio spiegano il comportamento dei dati;
il terzo capitolo riguarda l'analisi delle corrispondenze, ossia un metodo
per determinare le coordinate geometriche delle modalità poste sulle righe
e di quelle poste sulle colonne di una tabella di contingenza, al fine di evidenziare
le eventuali relazioni di dipendenza tra i due insiemi di modalità; nel quarto
capitolo viene illustrata l'analisi di raggruppamento (cluster analysis). Sotto
questo termine generale si accorpano varie tecniche volte a classificare l'insieme
delle unità statistiche o delle variabili in gruppi non definiti a priori.
I gruppi sono definiti in modo da massimizzare l'omogeneità interna o, parallelamente,
in modo da massimizzare le differenze tra i gruppi stessi. Si tratta della
tecnica statistica attualmente più utilizzata nel Data Mining; nel quinto capitolo
viene accennata la teoria dei test di ipotesi, e si considera, in particolare,
il test sul confronto di medie; nel sesto capitolo viene trattata l'analisi
della varianza a una via e a due vie. Questa tecnica statistica viene impiegata
per determinare se i risultati di una variabile quantitativa dipendono o meno
dall'appartenenza delle unità statistiche ad una classe di una variabile qualitativa.
Alla fine di ogni capitolo viene riportata un'applicazione della tecnica statistica
considerata, realizzata con il software SAS.
L'ultimo capitolo contiene un'analisi di Data Mining su dati ambientali, riguardanti
le rilevazioni di parametri chimici e chimico-fisici nell'area dell'Acna di
Cengio. In questa applicazione viene effettuata, tra l'altro, un'analisi di
raggruppamento delle rilevazioni.
|
 |
 |
 |
| |
| SAS Academic |
|