Lista de recursos SAS Visual Data Mining e Machine Learning

Programação interativa em um ambiente de desenvolvimento baseado na web

  • Interface visual para todo o processo do ciclo de vida analítico.
  • A interface interativa de arrastar e soltar não requer codificação, embora a codificação seja uma opção.
  • Suporta a criação de código automatizado em cada nó do pipeline.
  • Escolha os modelos de melhores práticas (básico, intermediário ou avançado) para começar rapidamente com as tarefas de aprendizagem da máquina ou tirar proveito de nosso processo automatizado de modelagem.
  • Relatórios de interpretabilidade tais como PD, LIME, ICE, e Kernel SHAP.
  • Compartilhe ideias de modelagem através de um relatório PDF.
  • Explore os dados do Model Studio e lance diretamente no SAS Visual Analytics.
  • Edite modelos importados do SAS Visual Analytics no Model Studio.
  • Veja os dados dentro de cada nó no Model Studio.
  • Executa SAS® Enterprise Miner código de lote 14.3 dentro do Model Studio.
  • Fornece um ambiente colaborativo para fácil compartilhamento de dados, trechos de código, anotações e melhores práticas entre diferentes pessoas.
  • Crie, gerencie e compartilhe conteúdo e administre permissões de conteúdo via SAS Drive.
  • O visualizador de linhagem SAS exibe visualmente as relações entre decisões, modelos, dados e decisões.

Automação inteligente com supervisão humana

  • API pública para automatizar muitas das etapas de modelagem manual e complexa para construir modelos de aprendizagem de máquinas - desde a manipulação de dados, à engenharia de características, à seleção de algoritmos, até a implementação.
  • Nó de engenharia automática de recursos para limpeza, transformação e seleção automática de recursos para modelos.
  • Nó de modelagem automática para selecionar automaticamente o melhor modelo usando um conjunto de rotinas de otimização e auto-ajuste através de múltiplas técnicas.
  • Ajuste interativamente a poda e a divisão dos nós da árvore de decisão.
  • Sugestões automatizadas de preparação de dados a partir do meta-learning.
  • Geração automatizada de pipelines com completa capacidade de personalização.

Geração de linguagem natural

  • Veja os resultados em linguagem simples para facilitar a compreensão dos relatórios, incluindo avaliação de modelos e interpretabilidade.

Suporte incorporado para linguagens Python & R

  • Incorpora código de fonte aberta dentro de uma análise e chama algoritmos de código aberto dentro do Model Studio.
  • O nó de Código Aberto no Model Studio é agnóstico às versões Python ou R.
  • Gerencia modelos Python em um repositório comum dentro do Model Studio.

Deep learning com Python (DLPy)

  • Construa modelos de deep learning para imagem, texto, áudio e dados de série temporal usando o Jupyter Notebook.
  • APIs de alto nível estão disponíveis no GitHub para:
    • Redes neurais profundas para dados tabulares.
    • Classificação e regressão da imagem.
    • Detecção de objetos.
    • Tarefas baseadas no RNN - classificação de texto, geração de texto e etiquetagem de sequência.
    • Processamento e modelagem de séries temporais baseadas em RNN.
  • Suporte para arquiteturas de rede predefinidas, tais como LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNNN e U-Net.
  • Importe e exporte modelos de deep learning no formato ONNX.
  • Use modelos ONNX para marcar novos conjuntos de dados em uma variedade de ambientes, aproveitando a Analytic Store (ASTORE)

Procedimentos SAS (PROCs) & Ações CAS

  • Uma interface de programação (SAS Studio) permite que TI ou desenvolvedores acessem um servidor CAS, carreguem e salvem dados diretamente de um servidor CAS e suportem processamento local e remoto em um servidor CAS.
  • Os programadores Python, Java, R, Lua e Scala ou a equipe de TI podem acessar dados e executar a manipulação básica de dados em um servidor CAS ou executar ações CAS usando PROC CAS.
  • As ações CAS apoiam a interpretabilidade, a engenharia de características e a modelagem.
  • Integrar e adicionar o poder do SAS a outras aplicações usando APIs REST.

Processamento analítico in-memory altamente escalável e distribuído

  • O processamento distribuído, em memória, de cálculos analíticos complexos em grandes conjuntos de dados fornece respostas de baixa latência.
  • As tarefas analíticas são encadeadas como um único trabalho em memória, sem ter que recarregar os dados ou escrever os resultados intermediários em discos.
  • O acesso simultâneo aos mesmos dados na memória por muitos usuários melhora a eficiência.
  • Os dados e resultados intermediários são mantidos na memória pelo tempo que for necessário, reduzindo a latência.
  • O gerenciamento integrado da carga de trabalho garante o uso eficiente dos recursos computacionais.
  • O gerenciamento de falhas integrado garante que os trabalhos enviados sejam sempre concluídos.
  • Transbordo de disco de E/S automatizado para gerenciamento de memória aprimorado.

Desenvolvimento de modelos com modernos algoritmos de aprendizagem de máquinas

  • Reforço da aprendizagem:
    • As técnicas incluem a Fitted Q-Network (FQN) e a Deep Q-Network (DQN).
    • A FQN pode treinar um modelo sobre pontos de dados pré coletados sem a necessidade de se comunicar com o ambiente.
    • Usa memória de replay e técnicas de rede de destino para relacionar o non-i.i.d. pontos de dados e estabilizar o processo de treinamento.
    • Capacidade de especificar um ambiente personalizado para pares de ação estatal e recompensas.
  • Florestas de decisão:
    • Conjunto automatizado de árvores de decisão para prever um único alvo.
    • Distribuição automatizada de treinamentos independentes.
    • Suporta o autoajuste inteligente dos parâmetros do modelo.
    • Geração automatizada do código SAS para pontuação de produção.
  • Impulso gradual:
    • Busca iterativa automatizada para a partição ideal dos dados em relação à variável de etiqueta selecionada.
    • Reamostragem automatizada de dados de entrada várias vezes com pesos ajustados com base nos resíduos.
    • Geração automatizada de média ponderada para o modelo supervisionado final.
    • Suporta etiquetas binárias, nominais e de intervalo.
    • Capacidade de personalizar o treinamento da árvore com várias opções para aumentar o número de árvores, critérios de divisão a serem aplicados, profundidade das subárvores e recursos de computação.
    • Critérios de parada automatizada baseados na pontuação dos dados de validação para evitar o ajuste excessivo.
    • Geração automatizada do código SAS para pontuação de produção.
    • Acesse lightGBM, um popular pacote de modelagem de código aberto.
  • Redes neurais:
    • Sintonia inteligente automatizada do conjunto de parâmetros para identificar o modelo ideal.
    • Suporta a modelagem de dados de contagem.
    • Defaults inteligentes para a maioria dos parâmetros da rede neural.
    • Capacidade de personalizar a arquitetura e os pesos das redes neurais.
    • As técnicas incluem redes neurais profundas (DNN), redes neurais convolucionais (CNNs), redes neurais recorrentes (RNNs) e autoencoders.
    • Capacidade de usar um número arbitrário de camadas ocultas para apoiar o aprendizado profundo.
    • Suporte para diferentes tipos de camadas, tais como convolução e pooling.
    • Padronização automática das variáveis de entrada e de destino.
    • Seleção automática e uso de um subconjunto de dados de validação.
    • Validação automática out-of-bag para parada antecipada para evitar overfitting.
    • Suporta o autoajuste inteligente dos parâmetros do modelo.
    • Geração automatizada do código SAS para pontuação de produção.
  • Máquinas vetoriais de suporte:
    • Modelos de etiquetas binárias de destino.
    • Suporta núcleos lineares e polinomiais para o treinamento de modelos.
    • Capacidade de incluir características de entrada/saída contínuas e categóricas.
    • Escala automatizada de recursos de entrada.
    • Capacidade de aplicar o método do ponto interior e o método do conjunto ativo.
    • Suporta a partição de dados para validação do modelo.
    • Apoia a validação cruzada para a seleção de penalidades.
    • Geração automatizada do código SAS para pontuação de produção.
  • Máquinas de fatoração:
    • Apoia o desenvolvimento de sistemas de recomendação baseados em matrizes esparsas de IDs de usuários e classificações de itens.
    • Capacidade de aplicar a fatoração de tensor de interação par a par completa.
    • Inclui características adicionais categóricas e numéricas de entrada para modelos mais precisos.
    • Modelos de super-carga com carimbos de tempo, dados demográficos e informações de contexto.
    • Oferece suporte a reinicialização a quente (atualização de modelos com novas transações sem retreinamento completo).
    • Geração automatizada do código de pontuação SAS para pontuação de produção.
  • Redes Bayesianas:
    • Aprende diferentes estruturas de rede Bayesianas, incluindo a ingênua, a ingênua com árvores (TAN), a ingênua com rede Bayesiana (BAN), as redes Bayesianas para pais e filhos e o Markov blanket.
    • Realiza uma seleção eficiente de variáveis através de testes de independência.
    • Seleciona automaticamente o melhor modelo a partir de parâmetros especificados.
    • Gera um código SAS ou um armazém analítico para pontuar os dados.
    • Carrega dados de vários nós e realiza cálculos em paralelo.
  • Modelos de mistura Dirichlet Gaussian (GMM):
    • Pode executar agrupamento em paralelo e é altamente multi-tarefa.
    • Realiza o agrupamento suave, que fornece não apenas a pontuação prevista para o agrupamento, mas também a distribuição de probabilidade sobre os agrupamentos para cada observação.
    • Aprende o melhor número de clusters durante o processo de clustering, que é apoiado pelo processo Dirichlet.
    • Utiliza um método Bayes (VB) variacional paralelo como método de inferência de modelo. Este método aproxima-se da distribuição posterior (intratável) e então atualiza iterativamente os parâmetros do modelo até atingir a convergência.
  • Algoritmo de aprendizado semisupervisionado:
    • Altamente distribuído e multi-tarefa.
    • Devolve as etiquetas previstas tanto para a tabela de dados não etiquetada como para a tabela de dados etiquetada.
  • Incorporação de vizinhança estocástica distribuída em T (t-SNE):
    • Altamente distribuído e multi-tarefa.
    • Retorna incorporações de baixa dimensão baseadas em uma implementação paralela do algoritmo t-SNE.
  • Redes adversas generativas (GANs)
    • As técnicas incluem StyleGANs para dados de imagem e GANs para dados tabulares.
    • Gera dados sintéticos para modelos de deep learning.

Preparação de dados analíticos

  • A melhor prática de engenharia inclui as melhores transformações.
  • Rotinas distribuídas de gerenciamento de dados fornecidas através de um front end visual.
  • Exploração e sumarização de dados em grande escala.
  • Perfil de cardinalidade:
    • Perfil de dados em grande escala das fontes de dados de entrada.
    • Recomendação inteligente para medição variável e papel.
  • Amostragem:
    • Suporta amostragem aleatória e estratificada, sobreamostragem para eventos raros e variáveis indicadoras para registros amostrados.

Exploração de dados, engenharia de características & redução de dimensões

  • Incorporação de vizinhança estocástica distribuída em T (t-SNE)
  • Corte de características.
  • Imputação de alto desempenho de valores ausentes em características com valores especificados pelo usuário, média, pseudo-mediana e valor aleatório de valores não ausentes.
  • Redução das dimensões das características.
  • Análise de componentes principais em grande escala (PCA), incluindo janelas móveis e PCA robusto.
  • Aprendizagem sem supervisão com análise de agrupamento e agrupamento misto de variáveis.
  • Perfis de segmento para agrupamento.

Análise integrada de textos

  • Suporta 33 idiomas nativos fora da caixa:
    • Inglês
    • Árabe
    • Chinês
    • Croata
    • Tcheco
    • Dinamarquês
    • Holandês
    • Farsi
    • Finlandês
    • Francês
    • Alemão
    • Grego
    • Hebraico
    • Hindi
    • Húngaro
    • Indonésio
    • Italiano
    • Japonês
    • Cazaque
    • Coreano
    • Norueguês
    • Polonês
    • Português
    • Romeno
    • Russo
    • Eslovaco
    • Esloveno
    • Espanhol
    • Sueco
    • Tagalog
    • Turco
    • Tailandês
    • Vietnamita
  • As listas de parada são automaticamente incluídas e aplicadas para todos os idiomas.
  • Análise automatizada, tokenização, etiquetagem da parte da fala e lematização.
  • Conceitos predefinidos extraem entidades comuns tais como nomes, datas, valores monetários, medidas, pessoas, lugares e muito mais.
  • Extração automatizada de características com tópicos gerados por máquinas (decomposição de valor singular e alocação de Dirichlet latente).
  • Suporta aprendizado de máquina e abordagens baseadas em regras em um único projeto.
  • Geração automática de regras com a BoolRule.
  • Classificar documentos com mais precisão com deep learning (redes neurais recorrentes).

Avaliação de modelo

  • Calcula automaticamente as estatísticas de desempenho do modelo de aprendizagem supervisionada.
  • Produz estatísticas de saída para intervalos e metas categóricas.
  • Cria mesa de elevação para intervalo e alvo categórico.
  • Cria tabela ROC para alvo categórico.
  • Cria gráficos de Classificação de Eventos e Classificação Nominal para modelos de aprendizagem supervisionada com um alvo de classe.

Modelo de pontuação

  • Gera automaticamente o código de etapa SAS DATA para o modelo de pontuação.
  • Aplica a lógica de pontuação ao treinamento, dados de retenção e novos dados.

Motor SAS Viya in-memory

  • CAS (SAS Cloud Analytic Services) realiza o processamento em memória e distribui o processamento entre os nós em um cluster.
  • As solicitações do usuário (expressas em uma linguagem procedural) são traduzidas em ações com os parâmetros necessários para serem processadas em um ambiente distribuído. O conjunto de resultados e as mensagens são passados de volta ao procedimento para ação posterior por parte do usuário.
  • Os dados são gerenciados em blocos e podem ser carregados na memória e sob demanda.
  • Se as tabelas excederem a capacidade de memória, o servidor armazena os blocos em cache no disco. Os dados e os resultados intermediários são mantidos na memória pelo tempo que for necessário, entre tarefas e limites do usuário.
  • Inclui comunicação altamente eficiente node-to-node. Um algoritmo determina o número ideal de nós para um determinado trabalho.
  • A camada de comunicação suporta tolerância a falhas e permite remover ou adicionar nós de um servidor enquanto ele está em execução. Todos os componentes podem ser replicados para alta disponibilidade.
  • Suporte ao código SAS antigo e interoperabilidade direta com clientes SAS 9.4M6.
  • Oferece suporte à implantação de multilocação, permitindo que uma pilha de software compartilhada suporte locatários isolados de maneira segura.