Lista de recursos do SAS Visual Text Analytics
Preparação de dados & visualização
Preparação de dados & visualização
- Ingere, limpa e transforma dados para análise, aceitando facilmente vários formatos de arquivo por meio de sistemas de arquivos locais ou remotos, bancos de dados relacionais e armazenamento em nuvem.
- Fornece uma interface de usuário intuitiva que leva em conta fatores importantes, tais como localização/internacionalização e acessibilidade.
- Fornece a capacidade de visualizar entidades, fatos e relacionamentos extraídos usando diagramas de rede ou análise de caminho.
- Fornece a capacidade de extrair dados do nó de conceitos em um formato pronto para o SAS Visual Analytics.
- O mapa de termos permite identificar visualmente as relações entre termos.
- A interface gráfica do usuário fornece um fluxo de programação visual.
- A explicabilidade do modelo apresenta descrições da geração da linguagem natural (NLG) para todos os resultados.
Análise
Análise
- As ações de análise são fornecidas como funcionalidade out-of-the-box em todos os idiomas suportados.
- A análise de texto suporta o acúmulo distribuído, o que leva a um processamento mais rápido dos dados ao distribuir completamente todos os aspectos do processo de acúmulo pela grade.
- Tokenization corta sequências de caracteres em frases individuais, palavras ou morfemas que podem então ser usadas como entrada para a etiquetagem de parte da fala.
- A lematização associa as palavras às suas formas básicas.
- A análise de erros de ortografia associa palavras mal soletradas com um conjunto de variantes que inclui a palavra devidamente soletrada.
- A etiquetagem de parte da fala classifica gramaticalmente as palavras com base em sua definição e contexto.
- A desambiguação dos limites das sentenças determina onde as sentenças começam e terminam.
- A análise de dependência atribui relações sintáticas entre as palavras de uma frase através da aplicação de algoritmos de deep learning.
Análise de tendências
Análise de tendências
- A descoberta automática de tópicos utiliza dois métodos não supervisionados de aprendizagem de máquinas - decomposição de valor singular e alocação de Dirichlet latente - para agrupar documentos baseados em temas comuns.
- As pontuações de relevância calculam quão bem cada documento pertence a cada tópico, e um sinalizador binário mostra a associação do tópico acima de um determinado limite.
- Mescle ou divida tópicos gerados automaticamente pela máquina (aprendizado de máquina não supervisionado) para criar tópicos definidos pelo usuário (experiência no assunto para refinar a saída automatizada de IA).
Extração de informações
Extração de informações
- Retira automaticamente informações estruturadas de um tipo de dado não estruturado ou semi-estruturado para criar novos dados estruturados usando tarefas como reconhecimento de entidade, extração de relacionamento e resolução de correferência.
- Utiliza conceitos predefinidos para extrair entidades comuns, tais como nomes, organizações, locais, expressões de tempo, datas, quantidades, porcentagens e muito mais.
- Faz a pontuação de dados de texto usando modelos de Reconhecimento de Entidade Nomeada (NER) apoiados pela aprendizagem da máquina para extrair informações do texto para melhorar e agilizar a tomada de decisões.
- Permite criar conceitos personalizados usando palavras-chave, operadores booleanos, expressões regulares, lógica predicada e uma ampla gama de operadores linguísticos.
- Permite referenciar um conceito pré-definido ou personalizado em uma regra de categorização para uma especificidade ou alcance extra contextual.
- Gera automaticamente regras de conceito relevantes e regras de fato baseadas em regras existentes para um conceito.
- Permite usar a caixa de proteção associada a cada conceito predefinido e personalizado para testar rapidamente novas regras e subconjuntos de seu modelo em uma coleção de documentos.
- Identifica e agrupa idiomas em um conjunto de documentos contendo vários idiomas para uma análise contextual mais rápida e precisa.
Abordagens de modelagem híbrida
Abordagens de modelagem híbrida
- A classificação baseada no BERT é usada para capturar o contexto e o significado das palavras em um texto para melhorar a precisão em comparação com os modelos tradicionais. Além da classificação geral, a classificação baseada no BERT pode ser usada para fazer análises de sentimento.
- As capacidades de PNL incluem análise automática, tokenization, etiquetagem de parte da fala, lematização e detecção de erros ortográficos.
- Permite aplicar listas de início e fim.
- Utiliza etiquetas especiais, qualificadores e operadores em regras linguísticas que aproveitam as ações de análise para permitir maior precisão ou melhores capacidades de recall/abstraction.
- Utiliza métodos linguísticos baseados em regras para extrair conceitos-chave.
- A análise automática pode ser usada junto com algoritmos de deep learning (redes neurais recorrentes) para classificar documentos e sentimentos com mais precisão.
- Automatiza a geração de tópicos com aprendizado de máquina não supervisionado.
- Os modelos de aprendizagem supervisionada/probabilística da máquina incluem BoolRule, Campo Aleatório Condicional e Semântica Probabilística.
- BoolRule permite a geração automática de regras para categorização de documentos.
- Campo Aleatório Condicional e Semântica Probabilística são usados para rotular e sequenciar dados e podem automatizar a extração de entidades e relacionamentos, aprendendo as regras contextuais de uma determinada entidade. Os construtores automáticos de regras promovem tópicos para categorias com aprendizagem de máquinas supervisionada.
Análise de sentimentos
Análise de sentimentos
- As informações subjetivas são identificadas em texto e rotuladas como positivas, negativas ou neutras utilizando a aprendizagem de máquinas ou uma abordagem baseada em regras. Essa informação está associada a uma entidade, e uma representação visual é fornecida através de uma exibição de indicadores de sentimento.
- Identifica e analisa termos, frases e cadeias de caracteres que implicam sentimento.
- Representa visualmente o sentimento através da exibição do indicador de sentimento em um nível de documento ou tópico.
- Fornece um método moderno de aprendizagem de máquinas para o sentimento baseado na estrutura aberta do BERT.
Análise de corpus
Análise de corpus
- Executa uma ação para realizar uma análise de corpus para criar um conjunto de tabelas de saída contendo contagens e estatísticas resumidas.
- Visualiza e entende insights sobre complexidade da informação, diversidade de vocabulário, densidade de informação e métricas de comparação contra um corpus de referência pré-determinado.
- Analisa ou visualiza estas estatísticas (usando as contagens) em relatórios criados no SAS Visual Analytics.
Flexibilidade de implantação
Flexibilidade de implantação
- Os nós SentiConcepts, Sentiment, Topics e Categories fornecem o código de pontuação necessário para implantar modelos em um conjunto de dados externos.
- O código de pontuação é encadeado nativamente para processamento distribuído, aproveitando ao máximo os recursos de computação para reduzir a latência dos resultados, mesmo em conjuntos de dados muito grandes.
- Loja analítica (ASTORE) é um arquivo binário que representa a lógica de pontuação a partir de um modelo ou algoritmo específico. Este ativo compacto permite a fácil movimentação e integração do código de pontuação em estruturas de aplicações existentes. O suporte ASTORE está disponível para os nós de Conceitos, Sentimento e Categorias.
Suporte nativo para 33 idiomas
Suporte nativo para 33 idiomas
- Detectar automaticamente os idiomas representados em corpora (documentos) multilíngues.
- Análise de textos prontos para uso em 33 idiomas:
- Árabe.
- Chinês.
- Croata.
- Tcheco.
- Dinamarquês.
- Holandês.
- Inglês.
- Farsi.
- Finlandês.
- Francês.
- Alemão.
- Grego.
- Hebraico.
- Hindi.
- Húngaro
- Indonésio.
- Italiano.
- japonês.
- Cazaque.
- Coreano.
- Norueguês.
- Polonês.
- Português.
- Romeno.
- Russo.
- Eslovaco.
- Esloveno.
- Espanhol.
- Sueco.
- Tagalog.
- Turco.
- Tailandês.
- Vietnamita.
- Lista de paradas padrão para cada idioma compatível com o aplicativo.
- Léxicos integrados que oferecem suporte a ações de análise, como tokenização, lematização, análise de erros ortográficos, marcação de parte da fala, análise de dependência e desambiguação de limite de frase.
Plataforma aberta
Plataforma aberta
- Integração perfeita com sistemas existentes e tecnologia de código aberto.
- Adicione o poder do SAS Analytics a outras aplicações usando APIs REST.
- APIs abertas e uma arquitetura de microsserviços permitem que você contorne a GUI nativa e use sua própria UI ou construa uma aplicação de busca personalizada.
- Publicação rápida e fácil de modelos analíticos de texto selecionados para as APIs dos Microanalytics Services (MAS), que você pode incorporar em suas aplicações web para categorização sob demanda e extração de conceitos.
- Interfaces de programação analítica out-of-the-box para resumo de texto, segmentação de dados de texto, análise e mineração de texto, modelagem de tópicos, desenvolvimento e pontuação de regras de texto, descoberta de regras de texto, mapeamento de termos e mapeamento de termos de tópicos, campo aleatório condicional e pesquisa.
- Suporte para todo o ciclo de vida analítico, desde os dados até a descoberta e implantação.
- Código em diversas linguagens de programação, incluindo SAS, Python, R, Java, Scala e Lua.