Lista de recursos SAS Visual Data Mining e Machine Learning
Programação interativa em um ambiente de desenvolvimento baseado na web
- Interface visual para todo o processo do ciclo de vida analítico.
- A interface interativa de arrastar e soltar não requer codificação, embora a codificação seja uma opção.
- Suporta a criação de código automatizado em cada nó do pipeline.
- Escolha os modelos de melhores práticas (básico, intermediário ou avançado) para começar rapidamente com as tarefas de aprendizagem da máquina ou tirar proveito de nosso processo automatizado de modelagem.
- Relatórios de interpretabilidade tais como PD, LIME, ICE, e Kernel SHAP.
- Compartilhe ideias de modelagem através de um relatório PDF.
- Explore os dados do Model Studio e lance diretamente no SAS Visual Analytics.
- Edite modelos importados do SAS Visual Analytics no Model Studio.
- Veja os dados dentro de cada nó no Model Studio.
- Executa SAS® Enterprise Miner™ código de lote 14.3 dentro do Model Studio.
- Fornece um ambiente colaborativo para fácil compartilhamento de dados, trechos de código, anotações e melhores práticas entre diferentes pessoas.
- Crie, gerencie e compartilhe conteúdo e administre permissões de conteúdo via SAS Drive.
- O visualizador de linhagem SAS exibe visualmente as relações entre decisões, modelos, dados e decisões.
Automação inteligente com supervisão humana
- API pública para automatizar muitas das etapas de modelagem manual e complexa para construir modelos de aprendizagem de máquinas - desde a manipulação de dados, à engenharia de características, à seleção de algoritmos, até a implementação.
- Nó de engenharia automática de recursos para limpeza, transformação e seleção automática de recursos para modelos.
- Nó de modelagem automática para selecionar automaticamente o melhor modelo usando um conjunto de rotinas de otimização e auto-ajuste através de múltiplas técnicas.
- Ajuste interativamente a poda e a divisão dos nós da árvore de decisão.
- Sugestões automatizadas de preparação de dados a partir do meta-learning.
- Geração automatizada de pipelines com completa capacidade de personalização.
Geração de linguagem natural
- Veja os resultados em linguagem simples para facilitar a compreensão dos relatórios, incluindo avaliação de modelos e interpretabilidade.
Suporte incorporado para linguagens Python & R
- Incorpora código de fonte aberta dentro de uma análise e chama algoritmos de código aberto dentro do Model Studio.
- O nó de Código Aberto no Model Studio é agnóstico às versões Python ou R.
- Gerencia modelos Python em um repositório comum dentro do Model Studio.
Deep learning com Python (DLPy)
- Construa modelos de deep learning para imagem, texto, áudio e dados de série temporal usando o Jupyter Notebook.
- APIs de alto nível estão disponíveis no GitHub para:
- Redes neurais profundas para dados tabulares.
- Classificação e regressão da imagem.
- Detecção de objetos.
- Tarefas baseadas no RNN - classificação de texto, geração de texto e etiquetagem de sequência.
- Processamento e modelagem de séries temporais baseadas em RNN.
- Suporte para arquiteturas de rede predefinidas, tais como LeNet, VGG, ResNet, DenseNet, Darknet, Inception, ShuffleNet, MobileNet, YOLO, Tiny YOLO, Faster R-CNNN e U-Net.
- Importe e exporte modelos de deep learning no formato ONNX.
- Use modelos ONNX para marcar novos conjuntos de dados em uma variedade de ambientes, aproveitando a Analytic Store (ASTORE)
Procedimentos SAS (PROCs) & Ações CAS
- Uma interface de programação (SAS Studio) permite que TI ou desenvolvedores acessem um servidor CAS, carreguem e salvem dados diretamente de um servidor CAS e suportem processamento local e remoto em um servidor CAS.
- Os programadores Python, Java, R, Lua e Scala ou a equipe de TI podem acessar dados e executar a manipulação básica de dados em um servidor CAS ou executar ações CAS usando PROC CAS.
- As ações CAS apoiam a interpretabilidade, a engenharia de características e a modelagem.
- Integrar e adicionar o poder do SAS a outras aplicações usando APIs REST.
Processamento analítico in-memory altamente escalável e distribuído
- O processamento distribuído, em memória, de cálculos analíticos complexos em grandes conjuntos de dados fornece respostas de baixa latência.
- As tarefas analíticas são encadeadas como um único trabalho em memória, sem ter que recarregar os dados ou escrever os resultados intermediários em discos.
- O acesso simultâneo aos mesmos dados na memória por muitos usuários melhora a eficiência.
- Os dados e resultados intermediários são mantidos na memória pelo tempo que for necessário, reduzindo a latência.
- O gerenciamento integrado da carga de trabalho garante o uso eficiente dos recursos computacionais.
- O gerenciamento de falhas integrado garante que os trabalhos enviados sejam sempre concluídos.
- Transbordo de disco de E/S automatizado para gerenciamento de memória aprimorado.
Desenvolvimento de modelos com modernos algoritmos de aprendizagem de máquinas
- Reforço da aprendizagem:
- As técnicas incluem a Fitted Q-Network (FQN) e a Deep Q-Network (DQN).
- A FQN pode treinar um modelo sobre pontos de dados pré coletados sem a necessidade de se comunicar com o ambiente.
- Usa memória de replay e técnicas de rede de destino para relacionar o non-i.i.d. pontos de dados e estabilizar o processo de treinamento.
- Capacidade de especificar um ambiente personalizado para pares de ação estatal e recompensas.
- Florestas de decisão:
- Conjunto automatizado de árvores de decisão para prever um único alvo.
- Distribuição automatizada de treinamentos independentes.
- Suporta o autoajuste inteligente dos parâmetros do modelo.
- Geração automatizada do código SAS para pontuação de produção.
- Impulso gradual:
- Busca iterativa automatizada para a partição ideal dos dados em relação à variável de etiqueta selecionada.
- Reamostragem automatizada de dados de entrada várias vezes com pesos ajustados com base nos resíduos.
- Geração automatizada de média ponderada para o modelo supervisionado final.
- Suporta etiquetas binárias, nominais e de intervalo.
- Capacidade de personalizar o treinamento da árvore com várias opções para aumentar o número de árvores, critérios de divisão a serem aplicados, profundidade das subárvores e recursos de computação.
- Critérios de parada automatizada baseados na pontuação dos dados de validação para evitar o ajuste excessivo.
- Geração automatizada do código SAS para pontuação de produção.
- Acesse lightGBM, um popular pacote de modelagem de código aberto.
- Redes neurais:
- Sintonia inteligente automatizada do conjunto de parâmetros para identificar o modelo ideal.
- Suporta a modelagem de dados de contagem.
- Defaults inteligentes para a maioria dos parâmetros da rede neural.
- Capacidade de personalizar a arquitetura e os pesos das redes neurais.
- As técnicas incluem redes neurais profundas (DNN), redes neurais convolucionais (CNNs), redes neurais recorrentes (RNNs) e autoencoders.
- Capacidade de usar um número arbitrário de camadas ocultas para apoiar o aprendizado profundo.
- Suporte para diferentes tipos de camadas, tais como convolução e pooling.
- Padronização automática das variáveis de entrada e de destino.
- Seleção automática e uso de um subconjunto de dados de validação.
- Validação automática out-of-bag para parada antecipada para evitar overfitting.
- Suporta o autoajuste inteligente dos parâmetros do modelo.
- Geração automatizada do código SAS para pontuação de produção.
- Máquinas vetoriais de suporte:
- Modelos de etiquetas binárias de destino.
- Suporta núcleos lineares e polinomiais para o treinamento de modelos.
- Capacidade de incluir características de entrada/saída contínuas e categóricas.
- Escala automatizada de recursos de entrada.
- Capacidade de aplicar o método do ponto interior e o método do conjunto ativo.
- Suporta a partição de dados para validação do modelo.
- Apoia a validação cruzada para a seleção de penalidades.
- Geração automatizada do código SAS para pontuação de produção.
- Máquinas de fatoração:
- Apoia o desenvolvimento de sistemas de recomendação baseados em matrizes esparsas de IDs de usuários e classificações de itens.
- Capacidade de aplicar a fatoração de tensor de interação par a par completa.
- Inclui características adicionais categóricas e numéricas de entrada para modelos mais precisos.
- Modelos de super-carga com carimbos de tempo, dados demográficos e informações de contexto.
- Oferece suporte a reinicialização a quente (atualização de modelos com novas transações sem retreinamento completo).
- Geração automatizada do código de pontuação SAS para pontuação de produção.
- Redes Bayesianas:
- Aprende diferentes estruturas de rede Bayesianas, incluindo a ingênua, a ingênua com árvores (TAN), a ingênua com rede Bayesiana (BAN), as redes Bayesianas para pais e filhos e o Markov blanket.
- Realiza uma seleção eficiente de variáveis através de testes de independência.
- Seleciona automaticamente o melhor modelo a partir de parâmetros especificados.
- Gera um código SAS ou um armazém analítico para pontuar os dados.
- Carrega dados de vários nós e realiza cálculos em paralelo.
- Modelos de mistura Dirichlet Gaussian (GMM):
- Pode executar agrupamento em paralelo e é altamente multi-tarefa.
- Realiza o agrupamento suave, que fornece não apenas a pontuação prevista para o agrupamento, mas também a distribuição de probabilidade sobre os agrupamentos para cada observação.
- Aprende o melhor número de clusters durante o processo de clustering, que é apoiado pelo processo Dirichlet.
- Utiliza um método Bayes (VB) variacional paralelo como método de inferência de modelo. Este método aproxima-se da distribuição posterior (intratável) e então atualiza iterativamente os parâmetros do modelo até atingir a convergência.
- Algoritmo de aprendizado semisupervisionado:
- Altamente distribuído e multi-tarefa.
- Devolve as etiquetas previstas tanto para a tabela de dados não etiquetada como para a tabela de dados etiquetada.
- Incorporação de vizinhança estocástica distribuída em T (t-SNE):
- Altamente distribuído e multi-tarefa.
- Retorna incorporações de baixa dimensão baseadas em uma implementação paralela do algoritmo t-SNE.
- Redes adversas generativas (GANs)
- As técnicas incluem StyleGANs para dados de imagem e GANs para dados tabulares.
- Gera dados sintéticos para modelos de deep learning.
Preparação de dados analíticos
- A melhor prática de engenharia inclui as melhores transformações.
- Rotinas distribuídas de gerenciamento de dados fornecidas através de um front end visual.
- Exploração e sumarização de dados em grande escala.
- Perfil de cardinalidade:
- Perfil de dados em grande escala das fontes de dados de entrada.
- Recomendação inteligente para medição variável e papel.
- Amostragem:
- Suporta amostragem aleatória e estratificada, sobreamostragem para eventos raros e variáveis indicadoras para registros amostrados.
Exploração de dados, engenharia de características & redução de dimensões
- Incorporação de vizinhança estocástica distribuída em T (t-SNE)
- Corte de características.
- Imputação de alto desempenho de valores ausentes em características com valores especificados pelo usuário, média, pseudo-mediana e valor aleatório de valores não ausentes.
- Redução das dimensões das características.
- Análise de componentes principais em grande escala (PCA), incluindo janelas móveis e PCA robusto.
- Aprendizagem sem supervisão com análise de agrupamento e agrupamento misto de variáveis.
- Perfis de segmento para agrupamento.
Análise integrada de textos
- Suporta 33 idiomas nativos fora da caixa:
- Inglês
- Árabe
- Chinês
- Croata
- Tcheco
- Dinamarquês
- Holandês
- Farsi
- Finlandês
- Francês
- Alemão
- Grego
- Hebraico
- Hindi
- Húngaro
- Indonésio
- Italiano
- Japonês
- Cazaque
- Coreano
- Norueguês
- Polonês
- Português
- Romeno
- Russo
- Eslovaco
- Esloveno
- Espanhol
- Sueco
- Tagalog
- Turco
- Tailandês
- Vietnamita
- As listas de parada são automaticamente incluídas e aplicadas para todos os idiomas.
- Análise automatizada, tokenização, etiquetagem da parte da fala e lematização.
- Conceitos predefinidos extraem entidades comuns tais como nomes, datas, valores monetários, medidas, pessoas, lugares e muito mais.
- Extração automatizada de características com tópicos gerados por máquinas (decomposição de valor singular e alocação de Dirichlet latente).
- Suporta aprendizado de máquina e abordagens baseadas em regras em um único projeto.
- Geração automática de regras com a BoolRule.
- Classificar documentos com mais precisão com deep learning (redes neurais recorrentes).
Avaliação de modelo
- Calcula automaticamente as estatísticas de desempenho do modelo de aprendizagem supervisionada.
- Produz estatísticas de saída para intervalos e metas categóricas.
- Cria mesa de elevação para intervalo e alvo categórico.
- Cria tabela ROC para alvo categórico.
- Cria gráficos de Classificação de Eventos e Classificação Nominal para modelos de aprendizagem supervisionada com um alvo de classe.
Modelo de pontuação
- Gera automaticamente o código de etapa SAS DATA para o modelo de pontuação.
- Aplica a lógica de pontuação ao treinamento, dados de retenção e novos dados.
Motor SAS Viya in-memory
- CAS (SAS Cloud Analytic Services) realiza o processamento em memória e distribui o processamento entre os nós em um cluster.
- As solicitações do usuário (expressas em uma linguagem procedural) são traduzidas em ações com os parâmetros necessários para serem processadas em um ambiente distribuído. O conjunto de resultados e as mensagens são passados de volta ao procedimento para ação posterior por parte do usuário.
- Os dados são gerenciados em blocos e podem ser carregados na memória e sob demanda.
- Se as tabelas excederem a capacidade de memória, o servidor armazena os blocos em cache no disco. Os dados e os resultados intermediários são mantidos na memória pelo tempo que for necessário, entre tarefas e limites do usuário.
- Inclui comunicação altamente eficiente node-to-node. Um algoritmo determina o número ideal de nós para um determinado trabalho.
- A camada de comunicação suporta tolerância a falhas e permite remover ou adicionar nós de um servidor enquanto ele está em execução. Todos os componentes podem ser replicados para alta disponibilidade.
- Suporte ao código SAS antigo e interoperabilidade direta com clientes SAS 9.4M6.
- Oferece suporte à implantação de multilocação, permitindo que uma pilha de software compartilhada suporte locatários isolados de maneira segura.