Lista de funciones de preparación de datos de SAS

Acceso a datos y metadatos

Acceso a datos y metadatos

  • Utilice cualquier fuente interna autorizada, fuentes de datos externas accesibles y datos almacenados en la memoria de SAS Viya.
    • Vea una muestra de una tabla o archivo cargado en el motor en memoria de SAS Viya, o de fuentes de datos registradas con SAS/ACCESS, para visualizar los datos con los que desea trabajar.
    • Cree rápidamente conexiones hacia y entre fuentes de datos externas.
    • Acceda a información de metadatos físicos como nombres de columnas, tipos de datos, codificación, recuento de columnas y recuento de filas para obtener más información sobre los datos.
  • Las fuentes y los tipos de datos incluyen:
    • Amazon S3.
    • Desplazamiento al rojo de Amazon.
    • DNFS, HDFS, archivos basados en PATH (CSV, SAS, Excel, delimitados).
    • DB2.
    • Panal.
    • Impala.
    • SAS LASR.
    • ODBC.
    • Oráculo.
    • postgres.
    • Teradata.
    • Fuentes de Twitter, YouTube, Facebook, Google Analytics, Google Drive, Esri y archivos locales.
    • Servicios analíticos en la nube de SAS (CAS).

Provisionamiento de datos

Provisionamiento de datos

  • Cargue datos en paralelo de las fuentes de datos deseadas en la memoria simplemente seleccionándolas, sin necesidad de escribir código o tener experiencia con una herramienta ETL. (Los datos no pueden devolverse a las siguientes fuentes de datos: Twitter, YouTube, Facebook, Google Analytics, Esri; solo pueden obtenerse de estos sitios).
    • Reduzca la cantidad de datos que se copian mediante el filtrado de filas o el filtrado de columnas antes de que se aprovisionen los datos.
    • Retenga big data in situ e impulse el procesamiento al sistema de origen mediante la inclusión de complementos opcionales SAS In-Database.

    Preparación de datos guiada e interactiva

    Preparación de datos guiada e interactiva

    • Transforme, combine, dé forma, limpie y estandarice los datos en un entorno visual interactivo que lo guía a través de los procesos de preparación de datos.
    • Comprenda fácilmente cómo una transformación afectó los resultados, obteniendo comentarios visuales casi en tiempo real a través del procesamiento distribuido en memoria de SAS Viya.

    Machine learning y sugerencias de IA

    Machine learning y sugerencias de IA

    • Aproveche la IA y el aprendizaje automático para escanear datos y hacer sugerencias de transformación inteligente.
    • Acepte sugerencias y complete transformaciones con solo hacer clic en un botón. No se requiere codificación avanzada o compleja.
    • Las sugerencias automáticas incluyen:
      • Caja.
      • Análisis de género.
      • Código de asociación.
      • Analizar gramaticalmente.
      • Estandarización.
      • Imputación de valores faltantes para variables numéricas.
      • Una codificación caliente.
      • Eliminar columna.
      • Recorte de espacios en blanco.
      • Convierte el tipo de datos de la columna.
      • Centro y escala.
      • Deduplicar.
      • Creación de identificación única.
      • Eliminación de columnas para datos dispersos.

    Transformaciones basadas en columnas

    Transformaciones basadas en columnas

    • Utilice transformaciones basadas en columnas para estandarizar, remediar y dar forma a los datos sin realizar configuraciones. Puede:
      • Cambiar entre minúsculas y mayúsculas.
      • Convertir columna.
      • Rebautizar.
      • Eliminar.
      • Dividir.
      • Recortar espacios en blanco.
      • Cálculo personalizado.
    • La compatibilidad con tablas anchas permite guardar planes de datos para trabajos de preparación de datos rápidos.

    Transformaciones basadas en filas

    Transformaciones basadas en filas

    • Utilice transformaciones basadas en filas para filtrar y dar forma a los datos.
    • Cree tablas basadas en analítica utilizando la transformación de transposición para preparar los datos para las tareas de analítica y reportes.
    • Cree filtros simples o complejos para eliminar datos innecesarios.

    Transformaciones basadas en código

    Transformaciones basadas en código

    • Escriba código personalizado para transformar, dar forma, combinar, remediar y estandarizar datos.
    • Escriba expresiones simples para crear columnas calculadas, escriba código avanzado o reutilice fragmentos de código para una mayor flexibilidad de transformación.
    • Importe código personalizado definido por otros, compartiendo mejores prácticas y productividad colaborativa.

    Transformaciones basadas en múltiples entradas

    Transformaciones basadas en múltiples entradas

    • Utilice transformaciones basadas en múltiples entradas para combinar y dar forma a los datos.
    • Combine o dé forma a uno o más conjuntos de datos mediante la interfaz guiada; no es necesario saber SQL o SAS. Puede:
      • Adjuntar datos.
      • Unir datos.
      • Transponer datos.

    Identificación de datos

    Identificación de datos

    • Datos de perfil para generar métricas de perfil básicas y avanzadas basadas en columnas y tablas.
    • Utilice las métricas de perfil a nivel de tabla para descubrir problemas de calidad de datos y obtener más información sobre los datos en sí.
    • Profundice en cada columna para obtener métricas de perfil a nivel de columna y para ver gráficos visuales de distribución de patrones y resultados de distribución de frecuencia que ayudan a descubrir información oculta.
    • Use una variedad de tipos/fuentes de datos (enumerados anteriormente). Para perfilar datos de Twitter, Facebook, Google Analytics o YouTube, primero debe importar explícitamente los datos al entorno en memoria de SAS Viya.

    Procesamiento de calidad de datos

    Procesamiento de calidad de datos

    SAS Data Quality en SAS Viya está incluido en SAS Data Preparation.

    Limpieza de datos

    Limpieza de datos

    • Utilice definiciones de análisis y extracción de campos específicas de la configuración regional y del contexto para remodelar los datos y descubrir información adicional.
    • Utilice la transformación de extracción para identificar y extraer información de contacto (p. ej., nombre, género, campo, patrón, identificación, correo electrónico y número de teléfono) en una columna específica.
    • Utilice el análisis cuando los datos de una columna específica deban tokenizarse en subcadenas (por ejemplo, un nombre completo tokenizado en prefijo, nombre de pila, segundo nombre y apellido).
    • Obtenga identificadores únicos a partir de códigos de coincidencia que vinculen fuentes de datos dispares.
    • Estandarice los datos con definiciones específicas de la ubicación y el contexto para transformar los datos en un formato común, como mayúsculas y minúsculas.

    Definición de identidad

    Definición de identidad

    • Analice los datos de las columnas utilizando reglas específicas de la configuración regional para determinar el género o el contexto.
      • Utilice el análisis de identificación para analizar los datos y determinar su contexto, lo cual es particularmente valioso si los datos o la fuente de datos no son familiares.
      • Use el análisis de género para determinar el género de un nombre usando reglas específicas de la región para que los datos se puedan filtrar o segmentar fácilmente.
      • Cree una identificación única para cada fila con un generador de identificación único.
      • Identifique los datos del sujeto en cada columna con análisis de identificación.
      • Identifique, busque y ordene datos etiquetándolos con columnas y tablas.

    Coincidencia de datos

    Coincidencia de datos

    • Determine los registros coincidentes en función de las definiciones específicas de la configuración regional y del contexto.
    • Identifique fácilmente registros coincidentes utilizando más de 25 reglas específicas del contexto, como fecha, dirección, nombre, correo electrónico, etc.
    • Utilice los resultados de la transformación del código de coincidencia para eliminar duplicados, realizar una búsqueda aproximada o una combinación aproximada.
    • Encuentre registros similares y agrúpelos lógicamente.

    Supervisión del sistema y del trabajo

    Supervisión del sistema y del trabajo

    • Use capacidades de monitoreo integradas para procesos a nivel de sistema y de trabajo.
    • Obtenga insights sobre cuántos procesos se están ejecutando, cuánto tardan y quién los está ejecutando.
    • Filtre fácilmente todos los trabajos del sistema según el estado del trabajo (en ejecución, correcto, fallido, pendiente y cancelado).
    • Acceda a los registros de errores de trabajo para ayudar con el análisis de la causa raíz y la resolución de problemas. (Nota: el monitoreo está disponible mediante SAS Environment Manager y la aplicación de monitoreo de trabajos).

    Programación de trabajos de importación y preparación de datos

    Programación de trabajos de importación y preparación de datos

    • Cree un trabajo de importación de datos a partir de código generado automáticamente para realizar una actualización de datos utilizando el programador integrado.
    • Programe las importaciones del explorador de datos como trabajos para que se conviertan en un proceso automático y repetible.
    • Especifique una hora, fecha, frecuencia y/o intervalo para los trabajos.

    linaje de datos

    linaje de datos

    • Explore las relaciones entre fuentes de datos accesibles, objetos de datos y trabajos.
    • Utilice el gráfico de relaciones para mostrar visualmente las relaciones que existen entre los objetos, lo que facilita la comprensión del origen de los datos y el seguimiento de su procesamiento.
    • Cree múltiples vistas con diferentes pestañas y guarde la organización de esas vistas.

    Plantillas de planes y colaboración en proyectos

    Plantillas de planes y colaboración en proyectos

    • Use planes de preparación de datos (plantillas), que consisten en un conjunto de reglas de transformación que se aplican a una o más fuentes de datos, para mejorar la productividad (pasar menos tiempo preparando datos).
    • Reutilice las plantillas aplicándolas a diferentes conjuntos de datos para garantizar que los datos se transformen de manera consistente para cumplir con los estándares y políticas de datos empresariales.
    • Confíe en la colaboración en equipo a través de un centro de proyectos que se utiliza con los proyectos de SAS Viya. La fuente de actividad del proyecto muestra quién hizo qué y cuándo, y puede usarse para comunicarse con otros miembros del equipo.

    Análisis de texto por lotes

    Análisis de texto por lotes

    • Extraiga rápidamente el contenido de los documentos y realice la identificación y extracción de texto.