Fonctionnalités de SAS® Visual Text Analytics

Préparation et visualisation de données

  • Intègre, nettoie et transforme les données à des fins d'analyse, en intégrant sans difficulté plusieurs formats de fichiers via des systèmes de fichiers internes ou distants, des bases de données relationnelles et des services de stockage dans le cloud.
  • Offre une interface utilisateur intuitive prenant en compte des facteurs aussi importants que la localisation, l'internationalisation et l'accessibilité.
  • Permet de visualiser les entités, relations et faits extraits sous forme de diagrammes de réseau ou d'analyses de parcours.
  • Permet d'extraire les données d'un nœud de concepts dans un format adapté à SAS Visual Analytics.
  • Propose des cartes de termes pour identifier visuellement les relations entre les termes.
  • Met à disposition une interface utilisateur graphique permettant un flux de programmation visuel.

Analyse

  • Les opérations d'analyse sont proposées sous forme de fonctionnalités prêtes à l'emploi disponibles dans toutes les langues prises en charge.
  • La décomposition du texte permet en premier lieu d’obtenir des informations de fréquence d’apparition des termes. Ce calcul, souvent consommateur de temps, est distribué afin d’accélérer le traitement de données en parallélisant les calculs.
  • La tokenisation partage les séquences de caractères en termes, morphèmes, ou groupes de mots souvent associés pouvant ensuite être utilisés en entrée de l'étiquetage morpho-syntaxique.
  • La lemmatisation associe des mots à leurs formes de base.
  • L'analyse des fautes d'orthographe associe les mots mal orthographiés à une série de variantes comprenant le terme correct.
  • L'étiquetage morpho-syntaxique établit une classification grammaticale des mots en fonction de leur définition et de leur contexte.
  • La désambiguïsation des limites de phrases détermine le début et la fin des phrases.
  • L'analyse des dépendances établit des relations syntaxiques entre les mots d'une phrase en appliquant des algorithmes de deep learning.

Analyse des tendances

  • La recherche automatique de thèmes utilise deux méthodes de machine learning non supervisé (décomposition de la valeur singulière et allocation de Dirichlet latente) pour regrouper des documents en fonction de thèmes communs.
  • Les scores de pertinence indiquent dans quelle mesure un document relève d'un thème, et un indicateur binaire montre l'appartenance à un thème au-dessus d'un seuil donné.
  • Les thèmes générés automatiquement par la machine (machine learning non supervisé) peuvent être fusionnés ou divisés afin de créer des thèmes personnalisés (expertise métier permettant d'affiner les résultats obtenus avec l'IA).

Extraction d'informations

  • Extrait automatiquement des informations structurées de données non structurées ou semi-structurées pour créer de nouvelles données structurées à l'aide de tâches de reconnaissance d'entités, d'extraction de relations et de résolution de co-référence, par exemple.
  • Utilise des concepts prédéfinis pour extraire des entités communes : noms, entreprises, lieux, indications de temps, dates, quantités, pourcentages, etc.
  • Permet de créer des concepts personnalisés à l'aide de mots-clés, d'opérateurs booléens, d'expressions régulières, de la logique des prédicats et d'un grand nombre d'opérateurs linguistiques.
  • Permet de référencer un concept prédéfini ou personnalisé dans une règle de catégorisation afin d'en dégager une spécificité ou une portée contextuelle supplémentaire.
  • Génère automatiquement des règles pertinentes de concepts et de faits sur la base de règles déjà établies pour un concept.
  • Permet d'utiliser le sandbox associé à chaque concept prédéfini ou personnalisé afin de tester rapidement les nouvelles règles et les nouveaux sous-ensembles d'un modèle sur une collection de documents.

Approches de modélisation hybrides

  • Offre des fonctionnalités de traitement du langage naturel telles que l'analyse automatisée, la tokenisation, l'étiquetage morpho-syntaxique, la lemmatisation et la détection des fautes d'orthographe.
  • Permet d'appliquer des listes de termes à conserver et de termes à exclure.
  • Utilise des balises, des qualificateurs et des opérateurs spéciaux au sein de règles linguistiques mettant à profit les opérations d'analyse pour gagner en précision ou améliorer les méthodes de rappel et d'abstraction conceptuelle.
  • Utilise des méthodes linguistiques basées sur des règles pour extraire des concepts clés.
  • Permet de coupler l'analyse automatique à des algorithmes de deep learning (réseaux de neurones récurrents) pour classer les documents et les sentiments avec davantage de précision.
  • Automatise la génération de thèmes grâce au machine learning non supervisé.
  • Offre plusieurs modèles de machine learning supervisé ou probabiliste, dont la procédure BoolRule, les champs aléatoires conditionnels (modèles CRF) et la sémantique probabiliste.
  • La procédure BoolRule permet de générer automatiquement des règles de catégorisation de documents.
  • Les champs aléatoires conditionnels et la sémantique probabiliste sont utilisés pour étiqueter et classer les données, mais aussi pour automatiser l'extraction d'entités et de relations par l'apprentissage des règles contextuelles d'une entité donnée. Les générateurs de règles automatiques classent les thèmes en catégories via le machine learning supervisé.

Analyse de sentiment

  • Identifie et analyse des termes, phrases et chaînes de caractères impliquant des sentiments.
  • Offre une représentation graphique du ressenti avec des indications propres à chaque document ou thème.
  • Permet d'utiliser des réseaux de neurones récurrents, pour une classification plus précise des sentiments.

Déploiement souple

  • Les nœuds de concepts, de sentiments, de thèmes et de catégories fournissent le script de scoring nécessaire pour déployer des modèles sur une table externe.
  • Le script de scoring utilise des threads en mode natif pour le traitement distribué, en exploitant au maximum les ressources de calcul afin de réduire les délais de latence dans l'obtention des résultats, y compris sur les tables les plus volumineuses.
  • Analytic Store (ASTORE) est un fichier binaire représentant la logique de scoring d'un modèle ou d'un algorithme donné. Cet outil compact facilite le déplacement du script de scoring et son intégration dans les structures applicatives existantes. ASTORE est disponible pour les nœuds de concepts, de sentiments et de catégories.

Prise en charge native de 33 langues

  • Analyse de texte prête à l'emploi pour 33 langues :
    • Arabe
    • Chinois
    • Croate
    • Tchèque
    • Danois
    • Néerlandais
    • Anglais
    • Farsi
    • Finnois
    • Français
    • Allemand
    • Grec
    • Hébreu
    • Hindi
    • Hongrois
    • Indonésien
    • Italien
    • Japonais
    • Kazakh
    • Coréen
    • Norvégien
    • Polonais
    • Portugais
    • Roumain
    • Russe
    • Slovaque
    • Slovène
    • Espagnol
    • Suédois
    • Tagalog
    • Turc
    • Thaï
    • Vietnamien
  • Liste des termes à exclure par défaut pour chaque langue prise en charge.
  • Lexiques intégrés compatibles avec des opérations d'analyse telles que la tokenisation, la lemmatisation, l'analyse des fautes d'orthographe, l'étiquetage morpho-syntaxique, l'analyse des dépendances et la segmentation de phrases.

Plate-forme ouverte

  • S'intègre facilement avec les systèmes en place et la technologie open source.
  • Permet d'insuffler toute la puissance des fonctionnalités analytiques de SAS aux autres applications via des API REST.
  • Permet de contourner l'interface graphique native grâce à des API ouvertes et une architecture de microservices, pour utiliser sa propre interface ou développer une application de recherche personnalisée.
  • Propose des interfaces de programmation analytiques prêtes à l'emploi pour la synthèse de texte, la segmentation des données textuelles, l'analyse de texte, le text mining, la modélisation de thèmes, la cartographie de termes et de termes de thème, la modélisation CRM et la recherche, sans oublier le développement, l'évaluation et la recherche de règles textuelles.
  • Prend en charge l'ensemble du cycle analytique, des données au déploiement en passant par l'exploration.
  • Permet de choisir entre plusieurs langages de programmation, dont SAS, Python, R, Java, Scala et Lua.
  • Garantit l'accès et le contrôle de la gestion et l'analyse des données grâce au lignage et à la gouvernance des données et des modèles.

Back to Top