Productos y soluciones / BUSINESS INTELLIGENCE

¿Qué es el Big Data?

Big data es el término que popularmente designa un crecimiento, disponibilidad y uso exponenciales de la información estructurada y desestructurada. Existe mucha literatura en torno a la tendencia sobre big data y a cómo este puede ser la base para la innovación, la diferenciación y el crecimiento.

Según IDC, es indispensable que las organizaciones y líderes en TI se concentren en el volumen, variedad y velocidad cada vez mayores de la información que conforma el big data1

  • Volumen. Existen muchos factores que contribuyen al aumento del volumen de datos: los datos de transacciones almacenados a lo largo de los años, los datos de texto que constantemente generan las redes sociales, la creciente cantidad de datos recopilados de sensores, etc. En el pasado, un volumen de datos excesivo planteaba un problema de almacenamiento. Pero con la actual reducción de costes del almacenamiento surgen otras dificultades, entre ellas la forma de determinar la relevancia en los ingentes volúmenes de datos y la creación de valor a partir de la información pertinente.
  • Variedad. En la actualidad, los datos se encuentran en todo tipo de formatos: desde las bases de datos tradicionales hasta los almacenes de datos jerárquicos creados por los usuarios finales, pasando por los sistemas OLAP, los documentos de texto, el email, los datos de mediciones, el video, el audio, la información bursátil y las transacciones financieras. Según algunos cálculos, el 80% de los datos de las organizaciones no son numéricos. No obstante, estos también deben incluirse en los análisis y el proceso de toma de decisiones.
  • Velocidad. Según Gartner, la velocidad "designa la rapidez con que se generan los datos y con la que deben procesarse para satisfacer la demanda". Las etiquetas RFID y los contadores inteligentes están impulsando una creciente necesidad de procesar torrentes de datos casi en tiempo real. Reaccionar con suficiente celeridad para hacer frente a la velocidad es un problema para la mayoría de las organizaciones.

El big data según SAS

En SAS, tenemos en cuenta otras dos dimensiones del big data:

  • Variabilidad. Al margen de la creciente velocidad y variedad de los datos, sus flujos pueden ser muy irregulares con picos periódicos. ¿Algo está de rabiosa actualidad en los medios sociales? Tal vez haya una importante oferta pública a la vista. O puede que nadar con cerdos en las Bahamas se convierta de pronto en el último grito en actividades vacacionales. Gestionar los picos en la carga de datos diarios, estacionales o asociados a eventos puede resultar difícil, sobre todo cuando están implicados los medios sociales.
  • Complejidad. Los enormes volúmenes de datos que debe gestionar seguramente procedan de múltiples fuentes. Vincular, casar, limpiar y transformar datos de un sistema a otro constituye para una empresa una importante envergadura. No obstante, es preciso conectar y establecer relaciones, jerarquías y múltiples vínculos de datos para no perder el control sobre ellos. La gobernanza de los datos puede ayudar a determinar en qué medida se desvían los datos de las definiciones comunes y cómo integrar sistemáticamente activos de datos estructurados y desestructurados para generar información de alta calidad útil, conveniente y actualizada.

En última instancia y con independencia de los factores implicados, creemos que el término big data es relativo: se aplica (según la evaluación de Gartner) siempre que la capacidad de una organización para tratar, almacenar y analizar datos supera los medios actuales.

"Los datos pequeños son cosa del pasado. Los datos no van a dejar de crecer nunca, y tenemos que adoptar una postura distinta en relación a su gestión."


— Scott Zucker
Familly Dolar

Leer más

Usos del big data según SAS

Por lo tanto, el verdadero problema no radica en la adquisición de grandes cantidades de datos (porque está claro que nos encontramos en la era del big data), sino en qué hacer con ellos. En el prometedor futuro del big data las organizaciones podrán aprovechar la información relevante y emplearla para mejorar su toma de decisiones.

Las tecnologías actuales no solo ayudan a recopilar y almacenar grandes cantidades de datos, sino que además ofrecen la posibilidad de entender y sacar partido de todo su valor, contribuyendo a un funcionamiento más eficaz y rentable de las organizaciones. Por ejemplo, el big data y sus análisis permiten:

  • Analizar millones de SKU para determinar los precios óptimos, maximizar los beneficios y liquidar el inventario.
  • Recalcular carteras de riesgo completas en minutos y conocer las futuras posibilidades de mitigación del riesgo.
  • Extraer datos de clientes para orientar nuevas estrategias de adquisición y retención, optimización de las campañas y elaboración de segundas mejores ofertas.
  • Identificar rápidamente los clientes más importantes.
  • Generar vales de promoción en el punto de venta en función de las compras actuales y pasadas del cliente, garantizando un mayor índice de canje.
  • Enviar recomendaciones personalizadas a los dispositivos móviles en el momento adecuado, cuando los clientes se encuentran en la ubicación idónea para aprovechar las ofertas.
  • Analizar los datos de los medios sociales para detectar nuevas tendencias de mercado y cambios en la demanda.
  • Utilizar el análisis de los flujos de clics y el data mining para detectar los comportamientos fraudulentos.

Determinar las causas de los fallos, problemas y defectos investigando las sesiones de usuario, los logs de red y los sensores de los equipos.

Ejemplos de big data

  • Los sistemas RFID (identificación por radiofrecuencia) generan una cantidad de datos 1000 veces mayor que los sistemas de código de barras convencionales.Tweet 
  • Cada segundo se realizan 10 000 transacciones con tarjetas de pago en todo el mundo.2 Tweet 
  • Walmart gestiona más de 1 millón de transacciones de cliente cada hora3 Tweet 
  • Cada día se mandan 340 millones de tweets. Esto supone cerca de 4000 tweets por segundo4 Tweet 
  • Facebook cuenta con más de 901 millones de usuarios activos que generan datos de interacción social.5 Tweet 
  • Más de 5000 millones de personas llaman, mandan mensajes de texto, tweetean y navegan por sitios web desde teléfonos móviles. Tweet 

Los retos del big data

A muchas organizaciones les preocupa que la cantidad de datos acumulados crezca tanto que sea complicado encontrar las partes de la información más valiosas.

  • ¿Y si su volumen de datos se vuelve tan grande y variado que no sabe cómo tratarlo?
  • ¿Almacena todos sus datos?
  • ¿Lo analiza todo?
  • ¿Cómo puede descubrir qué datos son realmente importantes?
  • ¿Cómo puede utilizarlos y sacarles el mayor provecho?

Hasta hace poco, las organizaciones únicamente utilizaban subconjuntos de sus datos o se limitaban a realizar análisis simplistas porque el mero volumen de estos desbordaba sus plataformas de procesamiento. ¿Qué sentido tiene recopilar y almacenar terabytes de datos si no es posible analizarlos en todo su contexto, o si hay que esperar horas o días para obtener resultados? Por otro lado, una mayor cantidad de datos no siempre es la mejor respuesta a todos los problemas de las empresas.

"High Performance Analytics, prevalece la ley de los grandes números: cuantos más datos se introduzcan en un modelo, más preciso será en realidad."


— Rex Pruitt
Premier Bankcard

Leer más

Ahora existen dos posibilidades:
• Incorporar volúmenes de datos masivos al análisis. Si le va a resultar más fácil encontrar las respuestas que busca analizando todos sus datos, no lo dude. Ahora cuenta con revolucionarias tecnologías que extraen verdadero valor del big data en su totalidad. Uno de los posibles enfoques consiste en aplicar high-performance analytics para analizar las ingentes cantidades de datos con tecnologías como el grid computing, el procesamiento in-database y los análisis in-memory.
• Determinar antes de nada qué big data es relevante. Hasta la fecha lo habitual era almacenarlo todo (lo que algunos denominan "acaparamiento de datos") sin determinar qué es relevante hasta que no se examina la información. Ahora podemos aplicar análisis de entrada para determinar la relevancia de los datos en función del contexto. Este análisis se puede utilizar para decidir qué datos deben incluirse en los procesos de análisis y cuáles deben destinarse a un almacenamiento de bajo coste para su disponibilidad en el futuro en caso de necesidad.

Tecnologías de big data

Algunos de los últimos avances tecnológicos permiten a las organizaciones sacar el máximo partido del big data y su análisis:

  • Almacenamiento y capacidad de procesamiento del servidor económicos y abundantes.
  • Procesadores más rápidos.
  • Funciones de memoria amplia asequibles, como Hadoop.
  • Nuevas tecnologías de almacenamiento y procesamiento específicamente diseñadas para grandes volúmenes de datos, incluida la información desestructurada.
  • Procesamiento paralelo, clustering, MPP, virtualización, grandes entornos grid, elevada conectividad y un alto flujo.

La computación de nube y otros sistemas de asignación de recursos flexibles.

"Ahora es posible ejecutar cientos y miles de modelos a nivel del producto (nivel SKU) porque el big data y los análisis lo permiten."


— Kerem Tomak
Macys.com

Leer más

Las tecnologías big data no solo ayudan a recopilar grandes cantidades de datos, sino que además permiten entenderlos y aprovechar su valor. El objetivo de todas las organizaciones que disponen de acceso a grandes compilaciones de datos debe ser detectar los más relevantes y usarlos para optimizar la toma de decisiones.

Es muy importante entender que no toda la información es relevante o útil. ¿Pero cómo se pueden detectar los datos más importantes? Se trata de un problema ampliamente reconocido. "Las mayoría de las empresas apenas han progresado en la extracción de valor del big data. Algunas han tratado de emplear las prácticas de gestión de datos tradicionales con el big data y lo único que han aprendido es que las antiguas normas ya no funcionan", afirmaba Dan Briody, en la publicación de 2011 de la Economist Intelligence Unit, "Big Data: Harnessing a Game-Changing Asset" (Big data: aprovechar todo el potencial de un activo revolucionario).

Soluciones SAS para el bigdata

¿Cómo se puede sacar el máximo rendimiento de toda esa información, ahora y en el futuro? En esta propuesta intervienen dos aspectos. La optimización de los buenos resultados pasa por la integración de los análisis en la solución de big data. Pero los análisis también son necesarios para gestionar el big data en sí.
Varias tecnologías clave pueden ayudar a dominar el big data, y lo que es más importante, a extraer un valor significativo de él.

  • Gestión de la información para el big data. Muchos fabricantes consideran el big data un debate en torno a tecnologías como Hadoop, NoSQL, etc. SAS adopta un enfoque de gestión/gobernanza de los datos más exhaustivo, y ofrece una estrategia y soluciones que permiten gestionar y usar de forma más eficaz el big data.
  • High-performance analytics. Gracias a la última tecnología de procesamiento paralelo, high-performance analytics permite hacer cosas que antes eran imposibles porque los volúmenes de datos sencillamente eran demasiado grandes.
  • High-performance visual analytics. High-performance visual analytics permite explorar ingentes volúmenes de datos en segundos para identificar rápidamente oportunidades de un análisis en mayor profundidad. Porque no basta con tener big data: las decisiones en base a este serán las que generen beneficios para la organización.
  • Opciones de despliegue flexible para el big data. Los modelos de despliegue flexible ofrecen variedad. High-performance analytics de SAS permite analizar miles de millones de variables, y esas soluciones se pueden desplegar en la nube (con SAS u otro proveedor), en un dispositivo de high-performance analytics específico o en la infraestructura de TI existente: puede elegir la opción que mejor se adapte a las necesidades de su organización.

1 Fuente: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO" (Análisis de big data: arquitecturas, capacidades y hojas de ruta futuras para el CIO), septiembre de 2011. 

2 Fuente: American Bankers Association, marzo de 2009 

3 Fuente: http://www.economist.com 

4 Fuente: http://blog.twitter.com 

5 Fuente: http://newsroom.fb.com/