Lista de recursos do SAS Visual Text Analytics

Preparação de dados & visualização

Preparação de dados & visualização

  • Ingere, limpa e transforma dados para análise, aceitando facilmente vários formatos de arquivo por meio de sistemas de arquivos locais ou remotos, bancos de dados relacionais e armazenamento em nuvem.
  • Fornece uma interface de usuário intuitiva que leva em conta fatores importantes, tais como localização/internacionalização e acessibilidade.
  • Fornece a capacidade de visualizar entidades, fatos e relacionamentos extraídos usando diagramas de rede ou análise de caminho.
  • Fornece a capacidade de extrair dados do nó de conceitos em um formato pronto para o SAS Visual Analytics.
  • O mapa de termos permite identificar visualmente as relações entre termos.
  • A interface gráfica do usuário fornece um fluxo de programação visual.
  • A explicabilidade do modelo apresenta descrições da geração da linguagem natural (NLG) para todos os resultados.

Análise

Análise

  • As ações de análise são fornecidas como funcionalidade out-of-the-box em todos os idiomas suportados.
  • A análise de texto suporta o acúmulo distribuído, o que leva a um processamento mais rápido dos dados ao distribuir completamente todos os aspectos do processo de acúmulo pela grade.
  • Tokenization corta sequências de caracteres em frases individuais, palavras ou morfemas que podem então ser usadas como entrada para a etiquetagem de parte da fala.
  • A lematização associa as palavras às suas formas básicas.
  • A análise de erros de ortografia associa palavras mal soletradas com um conjunto de variantes que inclui a palavra devidamente soletrada.
  • A etiquetagem de parte da fala classifica gramaticalmente as palavras com base em sua definição e contexto.
  • A desambiguação dos limites das sentenças determina onde as sentenças começam e terminam.
  • A análise de dependência atribui relações sintáticas entre as palavras de uma frase através da aplicação de algoritmos de deep learning.

Análise de tendências

Análise de tendências

  • A descoberta automática de tópicos utiliza dois métodos não supervisionados de aprendizagem de máquinas - decomposição de valor singular e alocação de Dirichlet latente - para agrupar documentos baseados em temas comuns.
  • As pontuações de relevância calculam quão bem cada documento pertence a cada tópico, e um sinalizador binário mostra a associação do tópico acima de um determinado limite.
  • Mescle ou divida tópicos gerados automaticamente pela máquina (aprendizado de máquina não supervisionado) para criar tópicos definidos pelo usuário (experiência no assunto para refinar a saída automatizada de IA).

Extração de informações

Extração de informações

  • Retira automaticamente informações estruturadas de um tipo de dado não estruturado ou semi-estruturado para criar novos dados estruturados usando tarefas como reconhecimento de entidade, extração de relacionamento e resolução de correferência.
  • Utiliza conceitos predefinidos para extrair entidades comuns, tais como nomes, organizações, locais, expressões de tempo, datas, quantidades, porcentagens e muito mais.
  • Faz a pontuação de dados de texto usando modelos de Reconhecimento de Entidade Nomeada (NER) apoiados pela aprendizagem da máquina para extrair informações do texto para melhorar e agilizar a tomada de decisões.
  • Permite criar conceitos personalizados usando palavras-chave, operadores booleanos, expressões regulares, lógica predicada e uma ampla gama de operadores linguísticos.
  • Permite referenciar um conceito pré-definido ou personalizado em uma regra de categorização para uma especificidade ou alcance extra contextual.
  • Gera automaticamente regras de conceito relevantes e regras de fato baseadas em regras existentes para um conceito.
  • Permite usar a caixa de proteção associada a cada conceito predefinido e personalizado para testar rapidamente novas regras e subconjuntos de seu modelo em uma coleção de documentos.
  • Identifica e agrupa idiomas em um conjunto de documentos contendo vários idiomas para uma análise contextual mais rápida e precisa.

Abordagens de modelagem híbrida

Abordagens de modelagem híbrida

  • A classificação baseada no BERT é usada para capturar o contexto e o significado das palavras em um texto para melhorar a precisão em comparação com os modelos tradicionais. Além da classificação geral, a classificação baseada no BERT pode ser usada para fazer análises de sentimento.
  • As capacidades de PNL incluem análise automática, tokenization, etiquetagem de parte da fala, lematização e detecção de erros ortográficos.
  • Permite aplicar listas de início e fim.
  • Utiliza etiquetas especiais, qualificadores e operadores em regras linguísticas que aproveitam as ações de análise para permitir maior precisão ou melhores capacidades de recall/abstraction.
  • Utiliza métodos linguísticos baseados em regras para extrair conceitos-chave.
  • A análise automática pode ser usada junto com algoritmos de deep learning (redes neurais recorrentes) para classificar documentos e sentimentos com mais precisão.
  • Automatiza a geração de tópicos com aprendizado de máquina não supervisionado.
  • Os modelos de aprendizagem supervisionada/probabilística da máquina incluem BoolRule, Campo Aleatório Condicional e Semântica Probabilística.
  • BoolRule permite a geração automática de regras para categorização de documentos.
  • Campo Aleatório Condicional e Semântica Probabilística são usados para rotular e sequenciar dados e podem automatizar a extração de entidades e relacionamentos, aprendendo as regras contextuais de uma determinada entidade. Os construtores automáticos de regras promovem tópicos para categorias com aprendizagem de máquinas supervisionada.

Análise de sentimentos

Análise de sentimentos

  • As informações subjetivas são identificadas em texto e rotuladas como positivas, negativas ou neutras utilizando a aprendizagem de máquinas ou uma abordagem baseada em regras. Essa informação está associada a uma entidade, e uma representação visual é fornecida através de uma exibição de indicadores de sentimento.
  • Identifica e analisa termos, frases e cadeias de caracteres que implicam sentimento.
  • Representa visualmente o sentimento através da exibição do indicador de sentimento em um nível de documento ou tópico.
  • Fornece um método moderno de aprendizagem de máquinas para o sentimento baseado na estrutura aberta do BERT.

Análise de corpus

Análise de corpus

  • Executa uma ação para realizar uma análise de corpus para criar um conjunto de tabelas de saída contendo contagens e estatísticas resumidas.
  • Visualiza e entende insights sobre complexidade da informação, diversidade de vocabulário, densidade de informação e métricas de comparação contra um corpus de referência pré-determinado.
  • Analisa ou visualiza estas estatísticas (usando as contagens) em relatórios criados no SAS Visual Analytics.

Flexibilidade de implantação

Flexibilidade de implantação

  • Os nós SentiConcepts, Sentiment, Topics e Categories fornecem o código de pontuação necessário para implantar modelos em um conjunto de dados externos.
  • O código de pontuação é encadeado nativamente para processamento distribuído, aproveitando ao máximo os recursos de computação para reduzir a latência dos resultados, mesmo em conjuntos de dados muito grandes.
  • Loja analítica (ASTORE) é um arquivo binário que representa a lógica de pontuação a partir de um modelo ou algoritmo específico. Este ativo compacto permite a fácil movimentação e integração do código de pontuação em estruturas de aplicações existentes. O suporte ASTORE está disponível para os nós de Conceitos, Sentimento e Categorias.

Suporte nativo para 33 idiomas

Suporte nativo para 33 idiomas

  • Detectar automaticamente os idiomas representados em corpora (documentos) multilíngues.
  • Análise de textos prontos para uso em 33 idiomas:
    • Árabe.
    • Chinês.
    • Croata.
    • Tcheco.
    • Dinamarquês.
    • Holandês.
    • Inglês.
    • Farsi.
    • Finlandês.
    • Francês.
    • Alemão.
    • Grego.
    • Hebraico.
    • Hindi.
    • Húngaro
    • Indonésio.
    • Italiano.
    • japonês.
    • Cazaque.
    • Coreano.
    • Norueguês.
    • Polonês.
    • Português.
    • Romeno.
    • Russo.
    • Eslovaco.
    • Esloveno.
    • Espanhol.
    • Sueco.
    • Tagalog.
    • Turco.
    • Tailandês.
    • Vietnamita.
  • Lista de paradas padrão para cada idioma compatível com o aplicativo.
  • Léxicos integrados que oferecem suporte a ações de análise, como tokenização, lematização, análise de erros ortográficos, marcação de parte da fala, análise de dependência e desambiguação de limite de frase.

Plataforma aberta

Plataforma aberta

  • Integração perfeita com sistemas existentes e tecnologia de código aberto.
  • Adicione o poder do SAS Analytics a outras aplicações usando APIs REST.
  • APIs abertas e uma arquitetura de microsserviços permitem que você contorne a GUI nativa e use sua própria UI ou construa uma aplicação de busca personalizada.
  • Publicação rápida e fácil de modelos analíticos de texto selecionados para as APIs dos Microanalytics Services (MAS), que você pode incorporar em suas aplicações web para categorização sob demanda e extração de conceitos.
  • Interfaces de programação analítica out-of-the-box para resumo de texto, segmentação de dados de texto, análise e mineração de texto, modelagem de tópicos, desenvolvimento e pontuação de regras de texto, descoberta de regras de texto, mapeamento de termos e mapeamento de termos de tópicos, campo aleatório condicional e pesquisa.
  • Suporte para todo o ciclo de vida analítico, desde os dados até a descoberta e implantação.
  • Código em diversas linguagens de programação, incluindo SAS, Python, R, Java, Scala e Lua.