sas academic program / tesi con sas

Tecniche statistiche di Data Mining. Applicazioni alla segmentazione della clientela di istituti bancari.

University ChallengeLuisa Maria Beltrami | Università degli Studi di Milano (24/02/2011)
Corso di Laurea Magistrale in Matematica per le Applicazioni
Relatore: prof.ssa Alessandra Micheletti

Scopo di questa tesi è l'analisi di alcune delle principali tecniche statistiche utilizzate nel Data Mining e l'applicazione delle stesse alla segmentazione della clientela bancaria, in particolare la clientela di Banca Mediolanum. Il Data Mining è un processo che consiste nella selezione, esplorazione e modellizzazione di grandi masse di dati, allo scopo di scoprire regolarità e relazioni significative non note a priori. Nel Data Mining viene fatto ampio uso delle tecniche di Statistica multivariata, cioè di quelle tecniche che vengono applicate a dati provenienti da realizzazioni di vettori aleatori, di dimensione d > 1.

In questa tesi, per la segmentazione della clientela sono state utilizzate l'analisi delle componenti principali, la cluster analysis e l'analisi discriminante. La segmentazione consiste nella disaggregazione di una popolazione in gruppi, definiti segmenti, che contengono individui aventi caratteristiche omogenee, sui quali è possibile attuare azioni di marketing e commerciali. È stata effettuata una segmentazione di tipo comportamentale, ovvero i clienti sono stati suddivisi in base al loro utilizzo dei prodotti e dei servizi offerti dalla banca. Per prima cosa si è proceduto a sintetizzare le dimensioni descrittive del fenomeno in esame. Le variabili che descrivono il comportamento della clientela sono infatti risultate in numero piuttosto elevato per descrivere il fenomeno in questione. L'analisi delle componenti principali ha portato all'individuazione di sette macro variabili che sono state così interpretate: Utilizzo del Conto Corrente, Patrimonio, Operatività Vita, Arretrato Vita, Operatività Titoli, Saldo sul Conto Corrente e Operatività Cassa. Le componenti selezionate spiegano circa il 65% della variabilità totale del fenomeno in esame, risultato soddisfacente considerando che le variabili di analisi iniziali erano 30. Le componenti individuate sono state utilizzate per determinare gruppi di clienti aventi caratteristiche omogenee al loro interno e fortemente differenziati tra loro.

La cluster analysis ha portato all'individuazione di sette segmenti: Clienti sviluppati ed attivi, Clienti storici dei prodotti Vita con bassa operatività sul C/C e scarsa alimentazione delle polizze, Clienti giovani da sviluppare dormienti su C/C, Clienti consolidati di prodotti Vita con basso utilizzo C/C, Clienti consolidati con prevalenza di prodotti Banca, Clienti evoluti, investitori con basso utilizzo del C/C, Clienti giovani da sviluppare attivi sul C/C. Dopo aver formato i segmenti ci si è posti il problema di definire una regola generale che dall'insieme di variabili utilizzate per la classificazione, permetta di effettuare l'assegnazione ai gruppi individuati. È stata effettuata un analisi discriminante, dapprima lineare e successivamente quadratica. In entrambi i casi la regola discriminatoria è risultata commettere un errore piuttosto basso, anche su dati diversi da quelli utilizzati per la stima. Definita la regola di assegnazione ai cluster, la segmentazione comportamentale diviene un concreto strumento di supporto alle decisioni. Gli individui appartenenti ai diversi segmenti costituiscono possibili target di riferimento per azioni di marketing della Banca.