Aprendizaje automático

Qué es y por qué es importante

El machine learning es un método de análisis de datos que automatiza la construcción de modelos analíticos. Es una rama de la inteligencia artificial basada en la idea de que los sistemas pueden aprender de datos, identificar patrones y tomar decisiones con mínima intervención humana.

Evolución del machine learning

Debido a nuevas tecnologías de cómputo, hoy día el machine learning no es como el del pasado. Nació del reconocimiento de patrones y de la teoría que dice que las computadoras pueden aprender sin ser programadas para realizar tareas específicas; investigadores interesados en la inteligencia artificial deseaban saber si las computadoras podían aprender de datos. El aspecto iterativo del machine learning es importante porque a medida que los modelos son expuestos a nuevos datos, éstos pueden adaptarse de forma independiente. Aprenden de cálculos previos para producir decisiones y resultados confiables y repetibles. Es una ciencia que no es nueva – pero que ha cobrado un nuevo impulso.

Aunque muchos algoritmos de aprendizaje basado en máquina han estado entre nosotros por largo tiempo, la posibilidad de aplicar automáticamente cálculos matemáticos complejos al big data – una y otra vez, cada vez más rápido – es un logro reciente. Éstos son algunos ejemplos ampliamente publicados de aplicaciones de machine learning con los que quizá esté familiarizado:

  • ¿El automóvil de conducción autónoma de Google tan publicitado? La esencia del machine learning
  • ¿Ofertas de recomendación en línea como las de Amazon y Netflix? Aplicaciones de machine learning para la vida diaria.
  • ¿Saber lo que los clientes dicen acerca de usted en Twitter? Machine learning combinado con creación de reglas lingüísticas.
  • ¿Detección de fraudes? Uno de los usos más obvios e importantes en nuestro mundo hoy día.

 

Fundamentos del machine learning

¿Qué es el machine learning y por qué se está volviendo tan popular? Este video breve explica todo lo que necesita saber acerca de la tecnología de SAS – qué hace, cómo funciona y la forma en que afecta nuestra manera de hacer negocios.

¿Por qué es importante el machine learning?

El resurgimiento del interés en el aprendizaje basado en máquina se debe a los mismos factores que han hecho la minería de datos y el análisis Bayesiano más populares que nunca. Cosas como los volúmenes y variedades crecientes de datos disponibles, procesamiento computacional más económico y poderoso, y almacenaje de datos asequible.

Todas estas cosas significan que es posible producir modelos de manera rápida y automática que puedan analizar datos más grandes y complejos y producir resultados más rápidos y precisos – incluso en una escala muy grande. Y con la construcción de modelos precisos, una organización tiene una mejor oportunidad de identificar oportunidades rentables – o de evitar riesgos desconocidos.

 

¿Qué se requiere para crear buenos sistemas de machine learning?

  • Recursos de preparación de datos.
  • Algoritmos – básicos y avanzados.
  • Automatización y procesos iterativos.
  • Escalabilidad.
  • Modelado en conjunto.
Infografía de machine learning

¿Lo sabía?

  • En el aprendizaje basado en máquina, un destino se conoce como etiqueta.
  • En estadística, un destino se conoce como variable dependiente.
  • Una variable en estadística se conoce como característica en el machine learning.
  • Una transformación en estadística se conoce como creación de característica en el machine learning.

Machine Learning en el mundo actual

Mediante el uso de algoritmos para construir modelos que descubran conexiones, las organizaciones pueden tomar mejores decisiones sin intervención humana. Aprenda más acerca de las tecnologías que dan forma al mundo en que vivimos.

White Paper

Oportunidades y retos para el machine learning en los negocios

Este documento de O'Reilly provee una guía práctica para implementar aplicaciones de machine learning en su organización.

Lea el resumen

El machine learning potencia la evaluación de crédito

¿Cómo puede el aprendizaje basado en máquina hacer más eficiente la evaluación de crédito? Averigüe cómo las agencias de evaluación de crédito pueden utilizarlo para evaluar la actividad del consumidor a fin de proveer mejores resultados a las instituciones de crédito. 

Lea el artículo

¿Cambiará a su organización el machine learning?

Este reporte de Harvard Business Review Insight Center observa cómo el aprendizaje basado en máquina cambiará a las compañías y la forma en que operan.   

 Descargue el reporte

Aplicación del machine learning para IoT

El aprendizaje basado en máquina se puede utilizar para lograr más altos niveles de eficiencia, en particular cuando se aplica a la Internet de las Cosas. Este artículo explora el tema.

Lea el resumen

¿Quién lo utiliza?

La mayoría de las industrias que trabajan con grandes cantidades de datos han reconocido el valor de la tecnología del machine learning. Obteniendo insights de estos datos – a menudo en tiempo real – las organizaciones pueden trabajar de manera más eficiente o lograr una ventaja sobre sus competidores.

Servicios financieros

Los bancos y otras empresas de la industria financiera utilizan la tecnología del aprendizaje basado en máquina para dos fines principales: identificar insights importantes en los datos y prevenir el fraude. Los insights pueden identificar oportunidades de inversión o bien ayudar a los inversionistas a saber cuándo vender o comprar. La minería de datos también puede identificar clientes con perfiles de alto riesgo o bien utilizar la cíber vigilancia para detectar signos de advertencia de fraude.

Gobierno

Dependencias de gobierno como seguridad pública y los servicios públicos tienen una necesidad particular del machine learning porque tienen múltiples fuentes de datos de las que se pueden extraer insights. Por ejemplo, el análisis de datos de sensores identifica formas de incrementar la eficiencia y ahorrar dinero. Asimismo, el aprendizaje basado en máquina puede ayudar a detectar fraude y minimizar el robo de identidad.

Atención a la salud

El machine learning es una tendencia en rápido crecimiento en la industria de atención a la salud, gracias a la aparición de dispositivos y sensores de vestir que pueden usar datos para evaluar la salud de un paciente en tiempo real. Asimismo, la tecnología puede ayudar a expertos médicos a analizar datos para identificar tendencias o banderas rojas que puedan llevar a diagnósticos y tratamientos mejorado. 

Marketing y ventas

Los sitios Web que le recomiendan artículos que podrían gustarle con base en compras anteriores, utilizan el machine learning para analizar su historial de compras – y promocionar otros artículos que podrían interesarle. Esta capacidad de capturar datos, analizarlos y usarlos para personalizar una experiencia de compra (o implementar una campaña de marketing) es el futuro del comercio detallista.

Petróleo y gas

Cómo encontrar nuevas fuentes de energía. Análisis de minerales del suelo. Predicción de fallos de sensores de refinerías. Optimización de la distribución de petróleo para hacerla más eficiente y económica. El número de casos de uso del machine learning en esta industria es vasto – y continúa creciendo.

Transporte

Analizar datos para identificar patrones y tendencias es clave para la industria del transporte, que se sustenta en hacer las rutas más eficientes y anticipar problemas potenciales para incrementar la rentabilidad. Los aspectos de análisis y modelado de datos del machine learning son herramientas importantes para las compañías de mensajería, transporte público y otras organizaciones de transporte.

¿Cuáles son algunos métodos populares del machine learning?

Dos de los métodos de aprendizaje basado en máquina más ampliamente adoptados son aprendizaje supervisado y aprendizaje no supervisado – pero existen también otros métodos de machine learning. Ésta es una descripción de los tipos más populares.

Los algoritmos de aprendizaje supervisado son entrenados utilizando ejemplos etiquetados, como una entrada donde se conoce el resultado deseado. Por ejemplo, una pieza de equipo podría tener puntos de datos etiquetados como “F” (fallidos) o “R” (corridas). El algoritmo de aprendizaje recibe un conjunto de entradas junto con los resultados correctos correspondientes, y el algoritmo aprende comparando su resultado real con resultados correctos para encontrar errores. Luego modifica el modelo en consecuencia. A través de métodos como la clasificación, regresión, predicción y aumento de gradiente, el aprendizaje supervisado utiliza patrones para predecir los valores de la etiqueta en datos no etiquetados adicionales. El aprendizaje supervisado se utiliza comúnmente en aplicaciones donde datos históricos predicen eventos futuros probables. Por ejemplo, puede anticipar cuándo es probable que transacciones con tarjetas de crédito sean fraudulentas o qué cliente de una aseguradora tiene la probabilidad de iniciar un reclamo.

El aprendizaje no supervisado se utiliza contra datos que no tienen etiquetas históricas. No se da la "respuesta correcta" al sistema. El algoritmo debe descubrir lo que se muestra. El objetivo es explorar los datos y encontrar alguna estructura en su interior. El aprendizaje no supervisado funciona bien con datos de transacciones. Por ejemplo, puede identificar segmentos de clientes con atributos similares que después puedan ser tratados de manera semejante en campañas de marketing. O bien puede encontrar los atributos principales que separan los segmentos de clientes. Algunas técnicas populares incluyen mapas con organización automática, mapping del vecino más cercano, k-means clustering y descomposición de valores singulares. Estos algoritmos se pueden utilizar también para segmentar temas de texto, recomendar elementos e identificar valores atípicos de datos.

El aprendizaje semisupervisado se utiliza para las mismas aplicaciones que el aprendizaje supervisado. Sin embargo, utiliza datos etiquetados y no etiquetados para entrenamiento – por lo general una pequeña cantidad de datos etiquetados con una gran cantidad de datos no etiquetados (porque los datos no etiquetados son menos costosos y se requiere menos esfuerzo en su obtención). Este tipo de aprendizaje se puede utilizar con métodos como la clasificación, regresión y predicción. El aprendizaje semisupervisado es de utilidad cuando el costo asociado con el etiquetado es demasiado alto para permitir un proceso de entrenamiento completamente etiquetado. Algunos ejemplos iniciales de este tipo de aprendizaje incluyen la identificación del rostro de una persona en una cámara Web.

El aprendizaje con refuerzo se utiliza a menudo para robótica, juegos y navegación. Con el aprendizaje con refuerzo, el algoritmo descubre a través de ensayo y error qué acciones producen las mayores recompensas. Este tipo de aprendizaje tiene tres componentes principales: el agente (el que aprende o toma decisiones), el entorno (todo con lo que interactúa el agente) y acciones (lo que el agente puede hacer). El objetivo es que el agente elija acciones que maximicen la recompensa esperada en cierta cantidad de tiempo. El agente logrará la meta mucho más rápido si aplica una buena política. De modo que el objetivo en el aprendizaje con refuerzo es aprender la mejor política.

Los humanos pueden crear, por lo general, uno o dos buenos modelos por semana; el machine learning puede crear miles de modelos por semana.

Thomas H. Davenport, Líder de pensamiento analítico
fragmento tomado de The Wall Street Journal

¿Cuáles son las diferencias entre el data mining, el machine learning y el deep learning?

Aunque todos estos métodos tienen la misma meta – obtener insights, patrones y relaciones que se puedan usar para tomar decisiones – tienen diferentes enfoques y habilidades.


Minería de datos

La minería de datos puede ser considerada un súper conjunto de muchos métodos diferentes para extraer insights de datos. Podría implicar métodos estadísticos tradicionales y machine learning. La minería de datos aplica métodos de muchas áreas diferentes para identificar patrones antes desconocidos de datos. Esto puede incluir algoritmos estadísticos, aprendizaje basado en máquina, analítica de texto, análisis de series de tiempo y otras áreas de la analítica. La minería de datos incluye también el estudio y la práctica del almacenaje y la manipulación de datos.

 


Machine Learning

La diferencia principal con el aprendizaje basado en máquina es que, al igual que los modelos estadísticos, el objetivo es entender la estructura de los datos – ajustar distribuciones teóricas a los datos que son bien entendidos. De modo que con modelos estadísticos hay una teoría detrás del modelo que se demuestra en términos matemáticos, pero esto requiere que los datos cumplan también con ciertas suposiciones de rigor. El machine learning se ha desarrollado con base en la posibilidad de usar computadoras para sondear la estructura de los datos, incluso si no tenemos una teoría de qué aspecto tiene la estructura. La prueba para un modelo de machine learning es un error de validación en nuevos datos, no una prueba teórica que demuestra una hipótesis nula. Como el machine learning utiliza a menudo un enfoque iterativo para aprender de datos, el aprendizaje puede ser automatizado con facilidad. Se hacen pases por los datos hasta que se encuentra un patrón sólido.


Deep Learning

El aprendizaje a fondo o mejor conocido como deep learning, combina avances en poder de cómputo y tipos especiales de redes neurales para aprender patrones complicados en grandes cantidades de datos. Las técnicas de aprendizaje a fondo son actualmente métodos de vanguardia para identificar objetos en imágenes y palabras en sonidos. Los investigadores buscan ahora aplicar estos aciertos en el reconocimiento de patrones a tareas más complejas como traducción automática del lenguaje, diagnósticos médicos y otros problemas sociales y de negocios importantes.

Cómo funciona

Para obtener el mayor valor del machine learning, tiene que saber cómo emparejar los mejores algoritmos con las herramientas y procesos correctos. SAS combina una herencia rica y refinada en estadística y minería de datos con nuevos avances arquitectónicos para garantizar que sus modelos se procesen lo más rápido posible – incluso en entornos empresariales de gran envergadura.

Algoritmos: Las interfaces gráficas de usuario de SAS le ayudan a construir modelos de machine learning e implementar un proceso iterativo. No tiene que ser un estadístico experto. Nuestra amplia selección de algoritmos de machine learning puede ayudarle a obtener valor al instante del big data y están incluidos en muchos productos de SAS. Los algoritmos de SAS machine learning incluyen:

Redes neurales
 
Árboles de decisión
 
Bosques aleatorios
 
Asociaciones y descubrimiento de secuencias
 
Incremento y empaquetado de gradiente
 
Máquinas vectoriales de soporte
 
Mapping del vecino más cercano
 
k-means clustering
 
Mapas con organización automática
 
Técnicas de optimización de búsqueda local (por ejemplo, algoritmos genéticos)
 
Maximización de la expectativa
 
Ranuras de regresión adaptables con múltiples variables
 
Redes Bayesianas
 
Estimación de densidad del kérnel
 
Análisis de componentes principales
 
Descomposición de valores singulares
 
Modelos de mezcla Gaussianos
 
Conformación de reglas de cobertura secuencial
 

 

Herramientas y procesos: Como sabemos ahora, no son sólo los algoritmos. Finalmente, el secreto para obtener el mayor valor del big data está en emparejar los mejores algoritmos para realizar la tarea en mano con:

Calidad y gestión integral de los datos
 
GUIs para construir modelos y flujos de procesos
 
Exploración de datos interactivos y visualización de resultados del modelo
 
Comparaciones de diferentes modelos de aprendizaje basado en máquina para identificar el mejor al instante    
 
Evaluación automatizada del modelo de ensamble para identificar los mejores desempeños
 
Fácil implementación de modelos de modo que pueda obtener resultados repetibles y confiables al instante
 
Plataforma integral e integrada para la automatización del proceso de datos a decisión
 

¿Necesita alguna orientación básica sobre qué algoritmo de machine learning utilizar para qué cosa? Este blog de Hui Li, científico de datos de SAS, provee un acordeón útil.