Lista de funciones de machine learning y minería de datos visuales de SAS

Programación interactiva en un entorno de desarrollo basado en web

  • Interfaz visual para todo el proceso del ciclo de vida analítico.
  • La interfaz interactiva de arrastrar y soltar no requiere codificación, aunque la codificación es una opción.
  • Admite la creación de código automatizada en cada nodo de la canalización.
  • Elija plantillas de mejores prácticas (básicas, intermedias o avanzadas) para comenzar rápidamente con las tareas de machine learning o aproveche nuestro proceso de modelado automatizado.
  • Reportes de interpretación como PD, LIME, ICE y Kernel SHAP.
  • Comparta insights de modelado a través de un informe en PDF.
  • Explore los datos desde Model Studio y acceda directamente a SAS Visual Analytics.
  • Edite modelos importados de SAS Visual Analytics en Model Studio.
  • Ver datos dentro de cada nodo en Model Studio.
  • Ejecute el código de lote SAS® Enterprise Miner 14.3 dentro de Model Studio.
  • Proporciona un entorno colaborativo para compartir fácilmente datos, fragmentos de código, anotaciones y mejores prácticas entre diferentes personas.
  • Cree, administre y comparta contenido y administre permisos de contenido a través de SAS Drive.
  • El visor de linajes de SAS muestra visualmente las relaciones entre decisiones, modelos, datos y decisiones.

Automatización inteligente con supervisión humana

  • API pública para automatizar muchos de los pasos de modelado complejos y manuales para crear modelos de aprendizaje automático, desde la disputa de datos hasta la ingeniería de características, la selección de algoritmos y la implementación.
  • Nodo de ingeniería automática de funciones para limpiar, transformar y seleccionar automáticamente funciones para modelos.
  • Nodo de modelado automático para seleccionar automáticamente el mejor modelo utilizando un conjunto de rutinas de optimización y ajuste automático a través de múltiples técnicas.
  • Ajuste de forma interactiva la poda y división de los nodos del árbol de decisión.
  • Sugerencias de preparación de datos automatizadas de meta aprendizaje.
  • Generación de canalizaciones automatizada con capacidad de personalización completa.

Generación de lenguaje natural

  • Vea los resultados en un lenguaje sencillo para facilitar la comprensión de los informes, incluida la interpretación y la evaluación del modelo.

Compatibilidad integrada con lenguajes Python y R

  • Incruste código fuente abierto dentro de un análisis y llame a algoritmos de código abierto dentro de Model Studio.
  • El nodo Código fuente abierto en Model Studio es independiente de las versiones de Python o R.
  • Administre modelos de Python en un repositorio común dentro de Model Studio.

Deep Learning con Python (DLPy)

  • Cree modelos de aprendizaje profundo para datos de imágenes, texto, audio y series temporales con Jupyter Notebook.
  • Las API de alto nivel están disponibles en GitHub para:
    • Redes neuronales profundas para datos tabulares.
    • Clasificación y regresión de imágenes.
    • Detección de objetos.
    • Tareas basadas en RNN: clasificación de texto, generación de texto y etiquetado de secuencias.
    • Procesamiento y modelado de series temporales basado en RNN.
  • Compatibilidad con arquitecturas de red predefinidas, como LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNN y U-Net.
  • Importe y exporte modelos de deep learning en formato ONNX.
  • Use modelos ONNX para puntuar nuevos conjuntos de datos en una variedad de entornos aprovechando Analytic Store (ASTORE)

Procedimientos SAS (PROC) y acciones CAS

  • Una interfaz de programación (SAS Studio) permite que el equipo de TI o a los programadores acceder a un servidor CAS, cargar y guardar datos directamente desde un servidor CAS, y dar soporte a procesamiento local y remoto en un servidor CAS.
  • Los programadores de Python, Java, R, Lua y Scala o el personal de TI pueden acceder a los datos y realizar una manipulación básica de datos en un servidor CAS, o ejecutar acciones CAS utilizando PROC CAS.
  • Soporte de acciones CAS para interpretabilidad, ingeniería de características y modelado.
  • Integre y agregue el poder de SAS a otras aplicaciones utilizando API REST.

Procesamiento analítico en memoria distribuido altamente escalable

  • El procesamiento distribuido en memoria de cálculos analíticos complejos en grandes conjuntos de datos proporciona respuestas de baja latencia.
  • Las tareas analíticas se encadenan como un solo trabajo en memoria sin tener que recargar los datos o escribir resultados intermedios en los discos.
  • El acceso simultáneo a los mismos datos en la memoria por parte de muchos usuarios mejora la eficiencia.
  • Los datos y los resultados intermedios se mantienen en la memoria durante el tiempo necesario, lo que reduce la latencia.
  • La gestión de carga de trabajo integrada garantiza un uso eficiente de los recursos informáticos.
  • La gestión de conmutación por error integrada garantiza que los trabajos enviados siempre finalicen.
  • Desbordamiento de disco de E/S automatizado para mejorar la gestión de la memoria.

Desarrollo de modelos con modernos algoritmos de machine learning

  • Aprendizaje reforzado:
    • Las técnicas incluyen la red Q ajustada (FQN) y la red Q profunda (DQN).
    • FQN puede entrenar un modelo sobre puntos de datos recopilados previamente sin necesidad de comunicarse con el entorno.
    • Utiliza memoria de reproducción y técnicas de red objetivo para descorrelacionar el no-iid puntos de datos y estabilizar el proceso de entrenamiento.
    • Capacidad para especificar un entorno personalizado para recompensas y pares de estado-acción.
  • Bosques de decisión:
    • Conjunto automatizado de árboles de decisión para predecir un solo objetivo.
    • Distribución automatizada de carreras de entrenamiento independientes.
    • Admite el ajuste automático inteligente de los parámetros del modelo.
    • Generación automatizada de código SAS para la puntuación de producción.
  • Aumento de gradiente:
    • Búsqueda iterativa automatizada para la partición óptima de los datos en relación con la variable de etiqueta seleccionada.
    • Remuestreo automatizado de datos de entrada varias veces con pesos ajustados basados en residuos.
    • Generación automatizada de promedio ponderado para modelo supervisado final.
    • Admite etiquetas binarias, nominales y de intervalo.
    • Capacidad para personalizar el entrenamiento de árboles con una variedad de opciones para el crecimiento de la cantidad de árboles, criterios de división para aplicar, profundidad de los subárboles y recursos informáticos.
    • Criterios de parada automatizados basados en la puntuación de datos de validación para evitar el sobreajuste.
    • Generación automatizada de código SAS para la puntuación de producción.
    • Acceda a lightGBM, un popular paquete de modelado de código abierto.
  • Redes neuronales:
    • Ajuste inteligente automatizado del conjunto de parámetros para identificar el modelo óptimo.
    • Admite el modelado de datos de conteo.
    • Valores predeterminados inteligentes para la mayoría de los parámetros de la red neuronal.
    • Capacidad para personalizar la arquitectura y los pesos de las redes neuronales.
    • Las técnicas incluyen redes neuronales directas profundas (DNN), redes neuronales convolucionales (CNN), redes neuronales recurrentes (RNN) y codificadores automáticos.
    • Capacidad de usar un número arbitrario de capas ocultas para apoyar el deep learning.
    • Compatibilidad con diferentes tipos de capas, como convolución y agrupación.
    • Estandarización automática de variables de entrada y destino.
    • Selección automática y uso de un subconjunto de datos de validación.
    • Validación automática out-of-bag para parada anticipada para evitar el sobreajuste.
    • Admite el ajuste automático inteligente de los parámetros del modelo.
    • Generación automatizada de código SAS para la puntuación de producción.
  • Máquinas de vectores de soporte:
    • Modela etiquetas de objetivos binarios.
    • Admite núcleos lineales y polinómicos para el entrenamiento de modelos.
    • Capacidad para incluir funciones de entrada/salida continuas y categóricas.
    • Escalado automatizado de entidades de entrada.
    • Capacidad para aplicar el método del punto interior y el método del conjunto activo.
    • Admite la partición de datos para la validación del modelo.
    • Admite la validación cruzada para la selección de penalizaciones.
    • Generación automatizada de código SAS para la puntuación de producción.
  • Máquinas de factorización:
    • Admite el desarrollo de sistemas de recomendación basados en matrices dispersas de ID de usuario y calificaciones de elementos.
    • Capacidad para aplicar la factorización de tensor de interacción por pares completa.
    • Incluye funciones de entrada categóricas y numéricas adicionales para modelos más precisos.
    • Potencie los modelos con marcas de tiempo, datos demográficos e información de contexto.
    • Admite reinicio en caliente (modelos de actualización con nuevas transacciones sin reentrenamiento completo).
    • Generación automatizada de código de puntuación SAS para puntuación de producción.
  • Redes bayesianas:
    • Aprende diferentes estructuras de red bayesianas, incluidas ingenuas, ingenuas aumentadas por árboles (TAN), ingenuas aumentadas por redes bayesianas (BAN), redes bayesianas padre-hijo y manta de Markov.
    • Realiza una selección eficiente de variables a través de pruebas de independencia.
    • Selecciona el mejor modelo automáticamente a partir de los parámetros especificados.
    • Genera código SAS o un almacén analítico para puntuar datos.
    • Carga datos de múltiples nodos y realiza cálculos en paralelo.
  • Modelos de mezcla gaussiana de Dirichlet (GMM):
    • Puede ejecutar clustering en paralelo y es altamente multiproceso.
    • Realiza un agrupamiento suave, que proporciona no solo la puntuación de clúster predicha, sino también la distribución de probabilidad sobre los clústeres para cada observación.
    • Aprende la mejor cantidad de clústeres durante el proceso de agrupamiento, que es compatible con el proceso de Dirichlet.
    • Utiliza un método bayesiano variacional paralelo (VB) como método de inferencia del modelo. Este método aproxima la distribución posterior (intratable) y luego actualiza iterativamente los parámetros del modelo hasta que alcanza la convergencia.
  • Algoritmo de aprendizaje semisupervisado:
    • Altamente distribuido y multiproceso.
    • Devuelve las etiquetas pronosticadas tanto para la tabla de datos sin etiqueta como para la tabla de datos etiquetada.
  • Incrustación de vecinos estocásticos distribuidos en T (t-SNE):
    • Altamente distribuido y multiproceso.
    • Devuelve incrustaciones de baja dimensión que se basan en una implementación paralela del algoritmo t-SNE.
  • Redes antagónicas generativas (GAN)
    • Las técnicas incluyen StyleGAN para datos de imagen y GAN para datos tabulares.
    • Genere datos sintéticos para modelos de deep learning.

Preparación de datos analíticos

  • La canalización de mejores prácticas de ingeniería de funciones incluye las mejores transformaciones.
  • Rutinas de gestión de datos distribuidas proporcionadas a través de una interfaz visual.
  • Exploración y resumen de datos a gran escala.
  • Perfilado de cardinalidad:
    • Perfiles de datos a gran escala de fuentes de datos de entrada.
    • Recomendación inteligente para medición de variables y rol.
  • Muestreo:
    • Admite muestreo aleatorio y estratificado, sobremuestreo para eventos raros y variables indicadoras para registros muestreados.

Exploración de datos, ingeniería de funciones y reducción de dimensiones

  • Incrustación de vecinos estocásticos distribuidos en T (t-SNE).
  • Clasificación de características.
  • Imputación de alto rendimiento de valores perdidos en características con valores especificados por el usuario, valor medio, pseudomediano y aleatorio de valores no perdidos.
  • Reducción de la dimensión de la característica.
  • Análisis de componentes principales (PCA) a gran escala, incluidas ventanas móviles y PCA robusto.
  • Aprendizaje no supervisado con análisis de conglomerados y agrupamiento de variables mixtas.
  • Perfiles de segmento para agrupamiento.

Análisis de texto integrado

  • Admite 33 idiomas nativos listos para usar:
    • Inglés
    • Arábica
    • Chino
    • croata
    • checo
    • danés
    • Holandés
    • farsi
    • finlandés
    • Francés
    • Alemán
    • Griego
    • hebreo
    • hindi
    • húngaro
    • indonesio
    • italiano
    • Japonés
    • kazajo
    • coreano
    • noruego
    • Polaco
    • portugués
    • rumano
    • ruso
    • eslovaco
    • esloveno
    • Español
    • sueco
    • tagalo
    • turco
    • tailandés
    • vietnamita
  • Las listas de exclusión se incluyen y aplican automáticamente para todos los idiomas.
  • Análisis automatizado, tokenización, etiquetado de partes del discurso y lematización.
  • Los conceptos predefinidos extraen entidades comunes como nombres, fechas, valores de moneda, medidas, personas, lugares y más.
  • Extracción de características automatizada con temas generados por máquinas (descomposición de valores singulares y asignación de Dirichlet latente).
  • Admite el machine learning y los enfoques basados en reglas dentro de un solo proyecto.
  • Generación automática de reglas con BoolRule.
  • Clasifique documentos con mayor precisión con aprendizaje profundo (redes neuronales recurrentes).

Evaluación del modelo

  • Calcula automáticamente las estadísticas de rendimiento del modelo de aprendizaje supervisado.
  • Produce estadísticas de salida para objetivos de intervalo y categóricos.
  • Crea una tabla de elevación para intervalos y objetivos categóricos.
  • Crea una tabla ROC para el objetivo categórico.
  • Crea gráficos de clasificación de eventos y clasificación nominal para modelos de aprendizaje supervisado con un objetivo de clase.

Valuación de modelos

  • Genera automáticamente el código de paso SAS DATA para la puntuación del modelo.
  • Aplica la lógica de puntuación al entrenamiento, los datos reservados y los datos nuevos.

Motor en memoria SAS Viya

  • CAS (SAS Cloud Analytic Services) realiza el procesamiento en la memoria y distribuye el procesamiento entre los nodos de un clúster.
  • Las solicitudes del usuario (expresadas en un lenguaje procedural) se traducen en acciones con los parámetros que se necesitan procesar en un entorno distribuido. El conjunto de resultados y los mensajes se devuelven al procedimiento para que el usuario ejecute acciones adicionales con ellos.
  • Los datos se gestionan en bloques y se pueden cargar en memoria y bajo demanda.
  • Si las tablas exceden la capacidad de memoria, el servidor aloja los bloques en la caché del disco. Los datos y resultados intermedios se alojan en la memoria mientras se requieran, entre los diferentes trabajos y fronteras del usuario.
  • Incluye comunicación de nodo a nodo altamente eficiente. Un algoritmo determina el número óptimo de nodos de un trabajo determinado.
  • La capa de comunicación admite la tolerancia a fallas y le permite eliminar o agregar nodos de un servidor mientras se está ejecutando. Todos los componentes se pueden replicar para una alta disponibilidad.
  • Compatibilidad con código SAS heredado e interoperabilidad directa con clientes SAS 9.4M6.
  • Admite la implementación de múltiples inquilinos, lo que permite que una pila de software compartida admita inquilinos aislados de manera segura.