SAS^® Visual Text Analytics

Liste des fonctionnalités de SAS Visual Text Analytics

Préparation et visualisation de données

Intègre, nettoie et transforme les données à des fins d'analyse, en intégrant sans difficulté plusieurs formats de fichiers via des systèmes de fichiers internes ou distants, des bases de données relationnelles et des services de stockage dans le cloud.
Offre une interface utilisateur intuitive prenant en compte des facteurs aussi importants que la localisation, l'internationalisation et l'accessibilité.
Permet de visualiser les entités, relations et faits extraits sous forme de diagrammes de réseau ou d'analyses de parcours.
Permet d'extraire les données d'un nœud de concepts dans un format adapté à SAS Visual Analytics.
Propose des cartes de termes pour identifier visuellement les relations entre les termes.
L'interface utilisateur graphique fournit un flux de programmation visuel.
L'explicabilité des modèles comprend des descriptions en langage naturel (NLG) pour tous les résultats.

Analyse

Les opérations d'analyse sont proposées sous forme de fonctionnalités prêtes à l'emploi disponibles dans toutes les langues prises en charge.
L'analyse syntaxique du texte prend en charge l'accumulation distribuée, qui permet un traitement plus rapide des données en distribuant entièrement tous les aspects du processus d'accumulation sur la grille.
La tokenisation découpe les séquences de caractères en phrases, mots ou morphèmes individuels qui peuvent ensuite être utilisés pour le marquage de la partie du langage.
La lemmatisation associe des mots à leurs formes de base.
L'analyse des fautes d'orthographe associe les mots mal orthographiés à un ensemble de variantes comprenant le mot correctement orthographié.
L'étiquetage morpho-syntaxique établit une classification grammaticale des mots en fonction de leur définition et de leur contexte.
La désambiguïsation des limites de phrases détermine le début et la fin des phrases.
L'analyse des dépendances établit des relations syntaxiques entre les mots d'une phrase en appliquant des algorithmes de deep learning.

Analyse des tendances

La recherche automatique de thèmes utilise deux méthodes de machine learning non supervisé (décomposition de la valeur singulière et allocation de Dirichlet latente) pour regrouper des documents en fonction de thèmes communs.
Les scores de pertinence indiquent dans quelle mesure un document relève d'un thème, et un indicateur binaire montre l'appartenance à un thème au-dessus d'un seuil donné.
Fusionnez ou divisez les sujets générés automatiquement par la machine (apprentissage automatique non supervisé) pour créer des sujets définis par l'utilisateur (expertise en la matière pour affiner les résultats de l'IA automatisée).

Extraction d'informations

Extrait automatiquement des informations structurées d'un type de données non structurées ou semi-structurées pour créer de nouvelles données structurées en utilisant des tâches telles que la reconnaissance d'entités, l'extraction de relations et la résolution de coréférences.
Utilise des concepts prédéfinis pour extraire des entités communes : noms, entreprises, lieux, indications de temps, dates, quantités, pourcentages, etc.
Scanne les données textuelles à l'aide de modèles de reconnaissance d'entités nommées (NER) soutenus par l'apprentissage automatique afin d'extraire des informations du texte pour améliorer et accélérer la prise de décision.
Permet de créer des concepts personnalisés à l'aide de mots-clés, d'opérateurs booléens, d'expressions régulières, de la logique des prédicats et d'un grand nombre d'opérateurs linguistiques.
Permet de référencer un concept prédéfini ou personnalisé dans une règle de catégorisation afin d'en dégager une spécificité ou une portée contextuelle supplémentaire.
Génère automatiquement des règles pertinentes de concepts et de faits sur la base de règles déjà établies pour un concept.
Permet d'utiliser le sandbox associé à chaque concept prédéfini ou personnalisé afin de tester rapidement les nouvelles règles et les nouveaux sous-ensembles d'un modèle sur une collection de documents.
Identifiez et regroupez les langues dans un ensemble de documents contenant plusieurs langues pour une analyse contextuelle plus rapide et plus précise.

Approches de modélisation hybrides

La classification basée sur BERT est utilisée pour saisir le contexte et la signification des mots dans un texte afin d’améliorer la précision par rapport aux modèles traditionnels. En plus de la classification générale, la classification basée sur BERT peut être utilisée pour effectuer une analyse des sentiments.
Offre des fonctionnalités de traitement du langage naturel telles que l'analyse automatisée, la tokenisation, l'étiquetage morpho-syntaxique, la lemmatisation et la détection des fautes d'orthographe.
Permet d'appliquer des listes de termes à conserver et de termes à exclure.
Utilise des balises, des qualificateurs et des opérateurs spéciaux au sein de règles linguistiques mettant à profit les opérations d'analyse pour gagner en précision ou améliorer les méthodes de rappel et d'abstraction conceptuelle.
Utilise des méthodes linguistiques basées sur des règles pour extraire les concepts clés.
Permet de coupler l'analyse automatique à des algorithmes de deep learning (réseaux de neurones récurrents) pour classer les documents et les sentiments avec davantage de précision.
Automatise la génération de thèmes grâce au machine learning non supervisé.
Offre plusieurs modèles de machine learning supervisé ou probabiliste, dont la procédure BoolRule, les champs aléatoires conditionnels (modèles CRF) et la sémantique probabiliste.
La procédure BoolRule permet de générer automatiquement des règles de catégorisation de documents.
Le champ aléatoire conditionnel et la sémantique probabiliste sont utilisés pour étiqueter et séquencer les données et peuvent automatiser l'extraction des entités et des relations en apprenant les règles contextuelles d'une entité donnée. Les créateurs de règles automatiques promeuvent les sujets vers les catégories avec l'apprentissage automatique supervisé.

Analyse de sentiment

Les informations subjectives sont identifiées dans le texte et étiquetées comme positives, négatives ou neutres en utilisant l'apprentissage automatique ou une approche basée sur des règles. Ces informations sont associées à une entité, et une représentation visuelle est fournie par le biais d'un indicateur de sentiment.
Identifie et analyse les termes, les phrases et les chaînes de caractères qui impliquent un sentiment.
Offre une représentation graphique du ressenti avec des indications propres à chaque document ou thème.
Fournit une méthode moderne d'apprentissage automatique pour les sentiments basée sur le cadre ouvert BERT.

Analyse du corpus

Exécutez une action pour effectuer une analyse de corpus afin de créer un ensemble de tableaux de sortie contenant des chiffres et des statistiques récapitulatives.
Visualiser et comprendre les informations sur la complexité de l'information, la diversité du vocabulaire, la densité de l'information et les mesures de comparaison avec un corpus de référence prédéterminé.
Analysez ou visualisez ensuite ces statistiques (en utilisant les comptages) dans des rapports créés dans SAS Visual Analytics.

Déploiement souple

Les nœuds SentiConcepts, Sentiment, Topics et Categories fournissent le code de score nécessaire pour déployer des modèles sur un ensemble de données externes.
Le script de scoring utilise des threads en mode natif pour le traitement distribué, en exploitant au maximum les ressources de calcul afin de réduire les délais de latence dans l'obtention des résultats, y compris sur les tables les plus volumineuses.
La mémoire analytique (ASTORE) est un fichier binaire qui représente la logique de notation d'un modèle ou d'un algorithme spécifique. Cet actif compact permet de déplacer facilement le code de partition et de l'intégrer dans les cadres d'applications existants. Le support ASTORE est disponible pour les nœuds Concepts, Sentiment et Catégories.

Prise en charge native de 33 langues

Détection automatique des langues représentées dans les corpus (documents) multilingues.
Analyse de texte prête à l'emploi pour 33 langues :
- Arabe
- Chinois
- Croate
- Tchèque
- Danois
- Néerlandais
- Anglais
- Farsi
- Finnois
- Français
- Allemand
- Grec
- Hébreu
- Hindi
- Hongrois
- Indonésien
- Italien
- Japonais
- Kazakh
- Coréen
- Norvégien
- Polonais
- Portugais
- Roumain
- Russe
- Slovaque
- Slovène
- Espagnol
- Suédois
- Tagalog
- Turc
- Thaï
- Vietnamien
Liste des termes à exclure par défaut pour chaque langue prise en charge.
Lexiques intégrés compatibles avec des opérations d'analyse telles que la tokenisation, la lemmatisation, l'analyse des fautes d'orthographe, l'étiquetage morpho-syntaxique, l'analyse des dépendances et la segmentation de phrases.

Plate-forme ouverte

S'intègre facilement avec les systèmes en place et la technologie open source.
Permet d'insuffler toute la puissance des fonctionnalités analytiques de SAS aux autres applications via des API REST.
Permet de contourner l'interface graphique native grâce à des API ouvertes et une architecture de microservices, pour utiliser sa propre interface ou développer une application de recherche personnalisée.
Publiez rapidement et facilement des modèles d'analyse de texte sélectionnés dans les API de Microanalytics services (MAS), que vous pouvez intégrer dans vos applications Web pour une catégorisation et une extraction de concepts à la demande.
Propose des interfaces de programmation analytiques prêtes à l'emploi pour la synthèse de texte, la segmentation des données textuelles, l'analyse de texte, le text mining, la modélisation de thèmes, la cartographie de termes et de termes de thème, la modélisation CRM et la recherche, sans oublier le développement, l'évaluation et la recherche de règles textuelles.
Prise en charge de l'ensemble du cycle de vie de l'analyse, des données à la découverte et au déploiement.
Codez dans divers langages de programmation, notamment SAS, Python, R, Java, Scala et Lua.