Mineração de Dados

O que é e por que é importante?


Definição de Mineração de Dados

Mineração de dados é o processo de exploração de grandes quantidades de dados com o objetivo de encontrar anomalias, padrões e correlações para suportar a tomada de decisões e proporcionar vantagens estratégicas. Usando uma ampla variedade de técnicas, você pode utilizar estas informações para aumentar as receitas, reduzir custos, melhorar o relacionamento com os clientes, reduzir riscos e muito mais.


A importância da mineração de dados

Por que a mineração de dados é importante? O volume de dados produzido está dobrando a cada dois anos. Dados não-estruturados compõem sozinhos 90% do universo digital. Porém, mais informação não significa necessariamente mais conhecimento. A mineração de dados nos permite filtrar todo o ruído caótico e repetitivo, entender o que é relevante e, então, fazer bom uso dessa informação para avaliar os prováveis resultados.


História da mineração de dados e avanços recentes

A aprendizagem a partir dos dados é extremamente poderosa, e seu uso está transformando a tomada de decisões de empresas dos mais diversos setores em um ritmo acelerado, poupando dinheiro e até mesmo vidas. Este é um momento animador para ser um analista de dados! Para encontrarmos excelência nesse trabalho, precisamos ouvir atentamente com o objetivo de transformar um desafio do mundo real em um problema parecido, mas solucionável.

John Elder
Fundador e Presidente, Elder Research Inc.

O processo de mineração de dados para descobrir conexões ocultas e para prever tendências futuras tem uma longa história. Por vezes chamado de “descoberta de conhecimento em bancos de dados”, o termo “mineração de dados ou data mining” só foi inventado nos anos 1990, mas sua criação é composta por três disciplinas científicas entrelaçadas: estatística (o estudo numérico de dados relacionados), inteligência artificial (inteligência artificial exibida por software e/ou máquinas) e machine learning (algoritmos que podem aprender a partir dos dados para fazer previsões). O que era velho se tornou novo outra vez, pois a tecnologia de mineração de dados continua evoluindo para acompanhar o potencial ilimitado do big data e a capacidade computacional acessível.

Durante a última década, os avanços no poderio de processamento e na velocidade nos permitiram ir de práticas manuais, tediosas e demoradas para análises de dados rápidas, fáceis e automáticas. Quanto mais complexos forem os conjuntos de dados coletados, mais potencial haverá para a descoberta de insights relevantes. Varejistas, bancos, fabricantes, operadoras de telecomunicações e seguradoras, entre outros, estão usando a mineração de dados para descobrir relações entre todas as coisas desde; preços, promoções e demografia até como a economia, risco, concorrência e as mídias sociais estão afetando seus modelos de negócio, receitas, operações e relacionamento com os clientes.

 

Mineração de dados: tecnologias, ferramentas e técnicas

Data Mining ou Mineração de dados, como uma disciplina combinada, representa uma variedade de métodos ou técnicas utilizadas em diferentes capacidades analíticas que abordam uma gama de necessidades organizacionais, respondem diferentes tipos de perguntas e usam diferentes níveis de regras para se chegar a uma decisão.


Modelagem descritiva

A modelagem descritiva revela semelhanças compartilhadas ou agrupamentos em dados históricos para determinar as razões por trás do sucesso ou fracasso, como a categorização de clientes por preferências por produtos ou emoções. Algumas destas técnicas são:

  • Clustering – agrupar registros semelhantes juntos.
  • Detecção de anomalias – a identificação de valores discrepantes multidimensionais.
  • Regras de associação – a detecção de relações entre os registros.
  • Análise de componentes principais – a detecção de relações entre as variáveis.
  • Agrupamento de afinidades – agrupamento de pessoas com interesses comuns ou objetivos semelhantes (por ex., pessoas que compram X muitas vezes compram Y e, possivelmente, Z).


Modelagem preditiva

A modelagem preditiva vai mais fundo para classificar eventos no futuro ou estimar resultados desconhecidos – por exemplo, usando escoragem de crédito para determinar a probabilidade que um indivíduo tem de quitar um empréstimo. A modelagem preditiva também ajuda a descobrir insights para situações como a probabilidade de um cliente migrar de operadora ou seja, previsão ao churn, resposta para determinada campanha ou padrões de crédito. Algumas destas técnicas são:

  • Modelos de Regressão – modelos matemáticos que medem relação entre uma variável dependente e uma série de variáveis independentes.
  • Redes neurais – programas de computador que detectam padrões, fazem previsões e aprendem.
  • Árvores de decisão – diagramas que permitem representar e avaliar problemas que envolvem decisões sequenciais, colocando em destaque os riscos e os resultados financeiros identificados nos diversos cursos de ação.
  • Máquinas de vetores de suporte – modelos de aprendizagem supervisionados que analisam os dados e reconhecem padrões, usado para classificação e análise de regressão.
A parte mais importante de qualquer projeto de mineração de dados é definir claramente o problema a ser solucionado. Nenhum modelo conta sozinho a história completa. Não existe uma regra que diz quando você já esgotou os dados. [Há retornos decrescentes, por isso pergunte] Quanto valor ou dinheiro eu posso trazer para a empresa, se eu continuar?

Dean Abbott
Presidente da Abbott Analytics

Modelagem prescritiva

A modelagem prescritiva olha para as variáveis internas, externas e restrições para recomendar um ou mais cursos de ação – por exemplo, determinar a melhor oferta de marketing a ser enviada para cada cliente. Algumas destas técnicas são:

  • Análise preditiva aliada às regras – o desenvolvimento de regras If/Then de padrões e previsão de resultados.
  • Otimização do marketing – simulando a combinação de mídias mais vantajosa em tempo real para sua empresa obtenha o maior ROI possível.

Com o crescimento de dados não estruturados a partir da web, campos de comentários, livros, e-mail, PDFs, áudio e outras fontes de texto, a adoção da mineração de texto como uma disciplina relacionada à mineração de dados também tem crescido significativamente. Você precisa ter a habilidade de analisar, filtrar e transformar com sucesso os dados não estruturados para incluí-los em modelos preditivos e realizar previsões com mais precisão.

Por fim, você não deve olhar para a mineração de dados como uma área e autônoma porque o pré-processamento (preparação de dados, exploração de dados) e o pós-processamento (validação do modelo, escoragem, monitoramento do desempenho do modelo) são igualmente essenciais.

Usos da mineração de dados e exemplos do mundo real

Comunicações

Em um mercado sobrecarregado e de concorrência é apertada, as respostas estão muitas vezes nos dados de seus consumidores. A empresa multimídia Sanoma utiliza modelos analíticos para dar sentido a milhões de transações por semana, prever o comportamento do cliente e oferecer campanhas altamente segmentadas e relevantes.

Seguros

Com o know-how analítico, as seguradoras podem resolver problemas complexos relativos à fraude, compliance, gerenciamento de riscos e atrito com os clientes, previnir cancelamentos, ou churn. Usando o SAS para fixar preços de produtos em seus negócios pessoais e comerciais, o OneBeacon Insurance Group melhorou seu índice de perda em 2 a 4 pontos e reduziu o tempo levado para construir modelos.

Educação

Com visualizações unificadas e voltadas para os dados do progresso dos alunos, os educadores podem prever o desempenho dos alunos antes que eles entrem na sala de aula – e desenvolver estratégias de intervenção para mantê-los no caminho certo. Mais de 4.000 professores e 350 administradores no Plano Independent School District podem acessar rapidamente os dados dos alunos e prever as conquistas. Muitas das escolas do distrito estão com 90% de desempenho.

Manufatura

Alinhar os planos de fornecimento com as previsões da demanda é essencial, assim como a detecção precoce de problemas, garantia de qualidade e investimento no valor da marca. A Volvo analisa mais de 100 parâmetros em seus veículos para prever o desgaste, evitar o tempo de inatividade não planejado do cliente e prever possíveis criando assim, um tempo de resposta mais rápido.

Serviços Financeiros

Algoritmos automatizados ajudam os bancos a obter uma melhor visão dos riscos de mercado, detectar fraudes mais rápido, gerenciar obrigações de conformidade regulatória e obter ótimos retornos sobre seus investimentos em marketing. O HSBC tem usado técnicas de mineração de dados para reduzir significativamente a incidência de fraudes em dezenas de milhões de contas de cartão de débito e crédito.

Varejo

Grandes bancos de dados de clientes detêm insights ocultos que podem ajudá-lo a melhorar as relações com os clientes, otimizar campanhas de marketing e prever vendas. A Staples veicula cerca de 1.500 campanhas em multicanais anualmente com base em 25 milhões de registros de clientes. A análise dos dados dessa geração de campanhas mostrou uma taxa de retorno de 137%.

Governo

Armadas com os dados corretos, as agências podem tomar decisões mais rápido para manter os cidadãos seguros, reduzir o peso que a fraude está colocando em programas governamentais e entrar em sintonia com o sentimento do público. O HM Revenue & Customs do Reino Unido precisava de uma solução de analytics de dados para ajudar a identificar a evasão fiscal e fraudes significativas. O Analytics ajudou a agência a localizar bilhões de dólares em receitas fiscais adicionais.

Utilities

Prever quedas de energia antes que elas ocorram, gerenciar a volatilidade de preços e proteger a participação no mercado são apenas alguns dos benefícios ao aproveitar o poder do big data. As campanhas de marketing automatizadas permitiram que a EDP España atingisse uma taxa de recuperação de consumidores de mais de 80% lealdade, do consumidor de eletricidade em 95% e 80% lealdade entre os consumidores de gás.

Assistência Médica

Com o analytics em ambiente de big data, as seguradoras de saúde podem reduzir as reclamações de fraudes, integridades de pagamentos, os prestadores de serviços hospitalares podem melhorar ao resultado dos pacientes, e os pacientes podem receber cuidados mais acessíveis e seguros. A Blue Cross and Blue Shield of North Carolina usou modelos preditivos para determinar o potencial de readmissão do paciente em risco para que ela pudesse interagir mais com os pacientes antes da alta. O modelo de dados supera corretamente a probabilidade em 400% na identificação dos pacientes.

Já foi dito antes, mas ser um cientista de dados atualmente é empolgante – e, sem dúvida, continuará a ser empolgante para muitos anos. Ser capaz de resolver alguns dos problemas mais difíceis em seu setor, e transformar respostas em retornos financeiros, é certamente um trabalho muito gratificante. Nosso trabalho é fornecer a você os meios para isso. Por quase 40 anos, o SAS desenvolveu a maior amplitude e profundidade de algoritmos analíticos, ferramentas de processamento de dados, e técnicas de manipulação de dados necessárias para a realização do trabalho de mineração de dados, do início ao fim.

Udo Sglavo
Diretor Sênior, SAS Advanced Analytics R&D

Perspectiva: HP

A cada ano, a HP realiza cerca de 2,5 bilhões de interações por meio de chamadas de clientes, visitas a sites, e-mails e sessões de bate-papo, e tem ainda mais pontos de contato através de parceiros comerciais. O resultado é um armazém de dados de 900TB com 360 milhões de registros de clientes, com um crescimento de milhões a cada mês. A meta da HP era clara: encontrar valor significativo em todos os dados, e alcançar uma visão de 360 graus de seus clientes para ser mais receptiva e competitiva.

Economia: Por meio do poderio analítico da mineração dados, a HP pôde alcançar com precisão mais de 100 milhões de clientes em segundos para mirar seus esforços de marketing e de serviços. Como resultado, a HP viu um acréscimo no ROI de 20% nas campanhas. Pedidos enviados aumentaram 50% em três anos, e o lucro operacional geral da loja HPDirect.com aumentou em mais de 50%.

Leia o caso de sucesso da HP


Soluções do SAS para mineração de dados

Quer mais insights?

Big Data Insights

Hadoop

Combine os benefícios do Hadoop com o poder do analytics para negócios do SAS.

Fraud & Risk Insights

Risco & Fraude

Tenha novos insights sobre risco e fraude lendo artigos, pesquisas e muito mais.

Marketing Insights

Customer Intelligence

Explore insights dos maiores líderes e inovadores do mundo do marketing em uma variedade de tópicos oportunos.

Back to Top