Big Data

O que é e por que é importante?


Big Data é um termo popular usado para descrever o crescimento, a disponibilidade e o uso exponencial de informações estruturadas e não estruturadas. O Big Data pode ser tão importante para os negócios - e para a sociedade - como a Internet se tornou. Por quê? O excesso de dados pode levar à realização de análises mais precisas.

Análises mais precisas podem levar à tomada de decisões mais eficientes. E decisões mais precisas podem significar uma maior eficiência operacional, redução de custos e riscos.

Definição de Big Data

Em 2001, o analista do setor de Doug Laney (Gartner) articulou a definição do termo Big Data em três Vs: Volume, Velocidade e Variedade.

  • Volume. Muitos fatores contribuem para o aumento do volume de dados. Transações de dados armazenados ao longo dos anos, dados de texto constantemente em streaming nas mídias sociais, o aumento da quantidade de dados de sensores que estão sendo coletados etc. No passado o volume de dados excessivo criou um problema de armazenamento. Mas com os atuais custos de armazenamento decrescentes, outras questões surgem, incluindo, como determinar a relevância entre os grandes volumes de dados e como criar valor a partir dessa relevância.
  • Velocidade. De acordo com o Gartner, velocidade significa tanto o quão rápido os dados estão sendo produzidos quanto o quão rápido os dados devem ser tratados para atender a demanda. Etiquetas RFID e contadores inteligentes estão impulsionando uma necessidade crescente de lidar com torrentes de dados em tempo quase real. Reagir rápido o suficiente para lidar com a velocidade é um desafio para a maioria das organizações.
  • Variedade. Os dados de hoje vem em todos os tipos de formatos. Sejam bancos de dados tradicionais, hierarquias de dados criados por usuários finais e sistemas OLAP, arquivos de texto, e-mail, medidores e sensores de coleta de dados, vídeo, áudio, dados de ações do mercado e transações financeiras. Por algumas estimativas, 80 por cento dos dados de uma organização não é numérico! Mas, estes dados também precisam ser incluídos nas análises e tomadas de decisões das empresas.

No SAS, consideramos duas outras dimensões quando pensamos em Big Data:

  • Variabilidade. Para além das velocidades crescentes e variedades de dados, o fluxo de dados pode ser altamente inconsistente com picos periódicos. Há algo grande virando tendência nas mídias sociais? Talvez haja um grande IPO se aproximando. Talvez de repente nadar com animais exóticos nas Bahamas se torne a atividade de férias imperdível do momento. Diariamente, eventos sazonais desencadeiam picos de carga de dados e isso pode ser um desafio para gerenciar - especialmente quando temos as mídias sociais envolvidas.
  • Complexidade. Quando você lida com grandes volumes de dados, eles vêm de diversas fontes. É um grande desafio vincular, correlacionar, limpar e transformar os dados de um sistema. No entanto, é necessário conectar e correlacionar interações, hierarquias e vínculos múltiplos de informação ou então os dados podem rapidamente sair de controle. Governança de dados pode ajudar a determinar como os dados díspares se relacionam com definições comuns e como integrar sistematicamente os ativos de dados estruturados e não estruturados para produzir informações de alta qualidade, uteis, adequadas e atualizadas.

1 Source: META Group. "3D Data Management: Controlling Data Volume, Velocity, and Variety." February 2001.

Big Data Insights

Big Data Insights

Obtenha mais insights sobre Big Data, incluindo artigos, pesquisas e outros temas.

Usos do Big Data

A verdadeira questão não é que você está coletando grandes quantidades de dados, mas sim o que você faz com eles. As organizações terão que ser capazes de aproveitar os dados relevantes e usá-los para tomar as melhores decisões. As Tecnologias não só apoiam a coleta e o armazenamento de grandes volumes de dados, elas fornecem a capacidade de compreender e obter valor, o que ajuda as organizações a operar de forma mais eficiente e rentável. Por exemplo, com o Big Data Analytics, é possível:

  • Analisar milhões de SKUs para determinar os preços ótimos que maximizam os lucros e mínimo inventário.
  • Recalcular carteiras de risco inteiras em questão de minutos e compreender as possibilidades futuras para mitigar o risco.
  • Minerar dados de clientes para insights que impulsionam novas estratégias de otimização de campanhas, aquisição e retenção de clientes.
  • Rapidamente identificar os clientes mais importantes.
  • No Varejo, gerar cupons no ponto de venda com base em compras atuais e passadas, garantindo uma maior taxa de conversão.
  • Enviar recomendações personalizadas para dispositivos móveis no momento certo, enquanto os clientes estão no local para aproveitar as ofertas.
  • Analisar dados de mídias sociais para detectar novas tendências de mercado e mudanças na demanda.
  • Usar a análise de fluxo de cliques e de mineração de dados para detectar comportamentos fraudulentos.
  • Determinar as causas de falhas, problemas e defeitos, investigando as sessões de usuário, logs de rede e sensores da máquina.

Desafios a considerar

Muitas organizações estão preocupadas com o fato de que a quantidade de dados acumulados está se tornando tão grande que é difícil encontrar as informações mais valiosas.

  • E se o seu volume de dados torna-se tão grande e variado que você não sabe como lidar com isso?
  • Você armazena todos os seus dados?
  • Você analisa tudo isso?
  • Como você pode descobrir quais dados são realmente importantes?
  • Como você pode usá-los para seu melhor proveito?

Até recentemente, as organizações têm sido limitadas ao uso de subconjuntos de amostras dos seus dados, ou limitadas a análises simplistas porque os volumes absolutos de dados sobrecarregariam suas plataformas de processamento. Qual é o sentido de coletar e armazenar terabytes de dados, se você não pode analisá-la no contexto completo, ou se você tem que esperar horas ou dias para obter resultados? Por outro lado, nem todos os dados são relevantes. Agora você tem duas opções:

Incorporar grandes volumes de dados na análise

As tecnologias de transformam o mundo são as que extraem o verdadeiro valor a partir do Big Data. Uma abordagem é a aplicação de análises de alto desempenho em enormes quantidades de dados usando tecnologias como Grid Computing, processamento In-Database e análise In-Memory.

Determinar antes quais os dados relevantes

Tradicionalmente, a tendência tem sido armazenar tudo (alguns chamam isso de acumulação de dados) e somente quando você consultar os dados irá ver o que é relevante. Agora temos a possibilidade de aplicar a análise na entrada dos dados para determinar sua relevância com base no contexto. Esta análise pode ser usada para determinar quais os dados devem ser incluídos nos processos de análise e quais podem ser alocadas em armazenamento de baixo custo de acesso posterior, se necessário.

Tecnologias Facilitadoras

Um número de recentes avanços tecnológicos está permitindo que organizações aproveitem o máximo do big data e do big data analytics:

  • Armazenamento abundante e barato.
  • Processadores mais rápidos.
  • Alta capacidade de memória acessível, como Hadoop.
  • Processamento paralelo, clustering, MPP, virtualização, grandes ambientes de grid, alta conectividade e grandes resultados.
  • Computação em nuvem e outras alocações de recursos flexíveis.

A tecnologia de big data não apenas suporta a habilidade de coletar grandes volumes de dados como também provê a habilidade de compreendê-los e tirar proveito de seu valor. A meta de todas as organizações com acesso a grandes volumes de dados deveria ser atrelar os dados mais relevantes e usá-los na tomada de decisões. É muito importante entender que nem todo dado será relevante ou útil. Mas como você pode encontrar os dados que mais importam? Esse é um problema amplamente conhecido. “Muitas empresas tem feito lentos progressos extraindo valor do big data. E algumas empresas tentam usar as tradicionais práticas de gerenciamento de dados no big data, apenas para aprender que velhas regras não mais se aplicam”, disse Dan Briody, na publicação do estudo de 2011 da Economist Intelligence Unit, “Big Data: Harnessing a Game-Changing Asset”.

Big Data em ação

 

Uma perspectiva da UPS

A UPS não é estranha ao big data, começou a capturar e controlar uma grande variedade de movimentações e operações de entregas desde 1980. A empresa agora faz o acompanhamento de dados sobre 16,3 milhões de entregas por dia para 8,8 milhões de clientes, com uma média de 39,5 milhões solicitações de rastreamento por dia vindas dos clientes. A empresa armazena mais de 16 petabytes de dados.

No entanto, grande parte dos dados adquiridos recentemente, vem de sensores de telemática em mais de 46.000 veículos. Os dados de caminhões da UPS, por exemplo, incluem a velocidade, direção e frenagem, para citar alguns. Os dados não somente são usados para monitorar o desempenho diário, mas também, para guiar uma grande reformulação de estruturas das rotas dos motoristas da UPS. Esta iniciativa, denominada ORION (On-Road Integration Optimization and Navigation), é sem dúvida o maior projeto de pesquisa operacional do mundo. Este projeto também depende fortemente dos dados de mapas on-line, para que eventualmente, possa reconfigurar em tempo real, os pick-ups e drop-offs dos motoristas (onde eles pegam e deixam as cargas/entregas).

Economia

Em 2011, o projeto já levou a economias de mais de 8,4 milhões de litros de combustível, encurtando 85 mil milhas de rotas diárias. A UPS estima que economizar apenas uma milha por dia por motorista, salva a empresa cerca de $30 milhões, de modo que as economias globais de dólar se façam substanciais. A empresa também está tentando usar dados e análises para otimizar a eficiência de seus 2 mil vôos de aeronaves por dia.2

2 fonte: Thomas H. Davenport and Jill Dyche, "Big Data in Big Companies," May 2013.

Where is big data coming from?

Before you begin to make sense of your data, it’s important to know its origins. The sources of big data are increasing every year, but they generally fall into one of three categories.

  • Streaming data. Also called the Internet of Things, this includes data that reaches your IT systems from a web of connected devices. Your organization can analyze this data as it arrives and make decisions on what data to keep, what not to keep and what requires further analysis. Read more about understanding data streams in this white paper.
  • Social media data. The data on social interactions is an increasingly attractive set of information, particularly for marketing, sales and support functions. This data is often in unstructured or semi-structured forms, so besides the sheer size of the data, it poses a unique challenge when consuming and analyzing this information. See how one company is marketing to mobile and social customers.
  • Publicly available sources. Massive amounts of data is available through open data sources like US government’s data.gov, the CIA World Factbook or the European Union Open Data Portal. Learn how SAS is helping people visualize 300+ million rows of global UN trade data.

 


Soluções SAS para Big Data

Quer descobrir mais sobre outros temas?

Fraud & Risk Insights

Risco e Fraude

Descubra novas percepções sobre risco e fraude em pesquisas, artigos e muito mais.

Analytics Insights

Analytics

Conecte-se com os mais recentes conhecimentos sobre analytics através de artigos e pesquisas.

Marketing Insights

Marketing

Explore tópicos relacionados a marketing e descubra uma variedade de novas informações.

Back to Top