Produits et Solutions / Text Mining

SAS® Text Miner

Analysez les sources de données non structurées grâce au Text Mining

SAS Text Miner met en évidence les informations dissimulées dans des collections de textes. Grâce à la lecture automatisée de données textuelles, et aux algorithmes permettant de réaliser des analyses avancées et rigoureuses, SAS Text Miner permet d'appréhender les tendances à venir et de gérer plus efficacement les nouvelles opportunités en réduisant les risques. Les fonctions linguistiques avancées de SAS Text Miner sont coeur de la solution de data mining SAS® Enterprise Miner™, et offrent ainsi la possibilité d'enrichir les analyses structurées de data mining et d'analyse prédictive avec la connaissance issue des données textuelles.

Bénéfices

  • Des décisions plus rapides grâce aux processus automatisés
  • Des processus d’exploration et de découverte enrichis par l’expertise métier
  • Une vision globale des données avec fonctions d’analyse détaillée
  • Un repérage des tendances et des opportunités

En savoir plus

Fonctionnalités

  • La génération automatique de règles booléennes facilite la classification des contenus
  • Interface conviviale
  • Filtrage intégré des documents
  • Visualisation des résultats
  • Traitements haute-performance
  • Sélection d’entités prédéfinies, création de nouvelles ou personnalisation pour l’extraction des faits et des événements
  • Interface interactive à l’import des données textuelles internes ou web
  • Support natif de multiples langes

En savoir plus

Capture d'écran

Création automatique de règles booléennes et entrainement interactif des modèles


Captures d'écran

Les atouts de SAS

SAS Text Miner offre une série complète d'outils de modélisation linguistique et analytique développés spécifiquement pour découvrir et extraire des connaissances à partir de larges collections de documents textuels.

Avec SAS Text Miner, vous gagnez du temps et économisez des ressources en automatisant les tâches de lecture et de compréhension de textes électroniques. En consolidant les sources de données structurées (quantitatives) et les informations textuelles (non structurées) dans un environnement commun, vous obtenez une vue plus précise et plus complète de vos données.

Les procédures haute-performance inclues tirent profit des serveurs multi-processeurs et accélerent grandement les tâches consommatrices de traitement texte.

Bénéfices

  • Des décisions plus rapides grâce aux processus automatisés

    L'utilisation combinée d'algorithmes intelligents et du traitement du langage naturel limite les tâches manuelles fastidieuses, désormais automatisées telles que l'identification des classes ou la construction des thèmes.

  • Des processus d’exploration et de découverte enrichis par l’expertise métier

    L'identification des concepts clés se faisant par une méthodologie unique, l'interface graphique de SAS Text Miner peut être utilisée pour réévaluer les scores de pertinence et guider les résultats provenant de l'apprentissage automatique grâce à l'expertise métier.
    L'utilisation d'entités personnalisées et de méthodes d'apprentissage actives donne la possibilité d'utiliser SAS Text Miner au-delà du mode automatique et de la simple prise en compte de start lists et stop lists.

  • Une vision globale des données avec fonctions d’analyse détaillée

    SAS Text Miner présente l'intégralité du processus de data mining et permet de visualiser et d'explorer le détail des connexions ainsi que les liens entre les éléments d'une série de documents ; une interface interactive facilite l'examen des thèmes dérivés et l'optimisation du modèle.

  • Un repérage des tendances et des opportunités

    SAS Text Miner transforme les données textuelles en une représentation numérique qui résume la collection des documents analysés. Cette représentation apporte une contribution riche à de nombreuses méthodes analytiques.
    Intégrer ces informations dans des modèles prédictifs permettra de mieux cerner les besoins clients, la demande de produits et services – et d'anticiper les opportunités au moment opportun.

Fonctionnalités

La génération automatique de règles booléennes facilite la classification des contenus
  • Aide à décrire et à prédire une variable cible en se basant sur les termes détaillés. Les règles résultantes peuvent servir à catégoriser les documents.
  • Les règles peuvent être exportées comme des règles booléennes et utilisées comme jeux de départ dans SAS Enterprise Content Categorization.
  • Les résultats de la modélisation sont présentés afin de pouvoir comparer les règles entre les phases d'apprentissage et de validation.
  • Apprentissage actif (Active Learning) :
    • suggestions automatiques de catégories et de thèmes proposées par le système, reparamétrables par l'utilisateur,
    • modification de la cible affectée aux règles. Lorsque les règles sont régénérées sur la base d'une telle modification, le modèle est lui aussi mis à jour.
Interface conviviale
  • La fusion de plusieurs thématiques en une thématique 'utilisateur' simplifie les résultats similaires.
  • L'affichage des sujets permet de visualiser les termes associés à un document, soulignant ainsi son rattachement à un sujet en particulier.
  • Le mode visualisation permet de représenter les termes au sein d'un document ou d'un sujet, ou encore de trier les documents.
  • La liste de sentiments AFFIN comportant plus de 2000 termes (y.c. des pondérations de polarité pré assignées) permet d'analyser les sentiments au niveau du document.
  • Les diagrammes comprenant les flux d'analyse textuelle peuvent être modifiés, sauvegardés et partagés.
  • Des tables provenant d'analyses antérieures aux noeuds peuvent être ajoutées pour capitaliser sur la connaissance acquise.
  • Chaque noeud peut être personnalisé (et déployé sous forme de score SAS) soit en paramétrant les algorithmes différemment, soit en ajoutant des règles métier pouvant s'appliquer aussi bien à la modélisation prédictive, qu'à la classification automatique, la représentation ou le reporting.
  • La solution est conforme aux normes d'accessibilité de la plate-forme Windows.
Filtrage intégré des documents
  • Les techniques sophistiquées de réduction des dimensions intègrent le filtrage avancé grâce aux pondérations, à la vérification orthographique automatique et à la transformation des données textuelles en format compact.
  • Le noeud filtre propose de créer des tables de synonymes et d'importer des tables de synonymes déjà existantes.
Visualisation des résultats
  • La représentation graphique des liens entre les termes permet d'analyser les résultats et d'explorer les liens visuellement.
    Des graphiques interactifs permettent de communiquer les résultats aux personnes concernées, notamment les graphiques synthétisant l'information, présentant l'évaluation des thèmes ou les relations entre les termes.
  • Le graphique de performance et la documentation générée sur la table de règles aident à naviguer dans les règles booléennes générées.
Traitements haute-performance
  • L'analyse textuelle haute-performance, très consommatrice, permet de tirer profit de la puissance machine, réduisant ainsi les temps de traitement de manière conséquente.
  • Les données textuelles peuvent être transformées en représentations structurées grâce aux SVDs.
  • Les scores sont appliqués plus rapidement sur de très larges tables.
Sélection d’entités prédéfinies, création de nouvelles ou personnalisation pour l’extraction des faits et des événements
  • Définition personnalisée de termes composés de plusieurs mots (ex : glisser-lâcher)
  • Choix parmi 18 définitions d'entités pré spécifiées pour l'extraction des adresses, entreprises, dates, numéros de téléphone, numéros de cartes d'identité, heures, etc…
  • Création d'entités personnalisées à extraire des textes, incluant une liste d'entités prédéfinies (départements, codes produits…) avec l'add-on SAS® Concept Creation for SAS Text Miner.
Interface interactive à l’import des données textuelles internes ou web
  • Création dynamique de tables à partir de fichiers internes ou collectés sur le web.
  • Nombreux formats supportés : Microsoft Word et PDF, ASCII, HTML, formats Office (feuilles Excel, présentations Powerpoint), emails, base de données…
  • Les données textuelles sont extraites, transformées et chargées dans une table SAS pour l'analyse.
  • Certains formats propriétaires peuvent être supportés. Dans ce cas le texte est filtré ou extrait et copié dans un fichier plat référencé dans la table SAS.
  • La langue de chaque document est identifiée et est traduite dans la langue de la session.
Support natif de multiples langes
  • Allemand, anglais, arabe, chinois, coréen, espagnol, français, italien, japonais, néerlandais, polonais, portugais, suédois, danois, finnois, grec, hébreu, hongrois, indonésien, norvégien, roumain, russe, slovaque, tchèque, thaï, turc et vietnamien. Parmi les dialectes figurent le chinois simplifié et traditionnel, le parisien et le québecquois, l'allemand ancien et moderne, les dialectes norvégiens Nunorsk and Bokmal, le brésilien, l'espagnol d'Amérique latine.

Captures d'écran

Capture d'écran
Création automatique de règles booléennes et entrainement interactif des modèles

Des règles booléennes peuvent être générées automatiquement et enrichir le modèle directement en supplantant les résultats automatiques.

Visualiser la capture d'écran

Capture d'écran
Examen des principaux termes regroupés sous un sujet au travers de l’interface graphique

Si les termes ou les sujets sont similaires, on peut les regrouper et les réassigner pour se rapprocher des résultats escomptés.

Visualiser la capture d'écran

Capture d'écran
La fenêtre de conceptualisation des liens regroupe les termes par classification

La fenêtre de conceptualisation des liens présente les groupes de termes en les classifiant en fonction de leurs associations.

Visualiser la capture d'écran

Capture d'écran
Outil interactif de visualisation des filtres

Grâce à la puissance de sa syntaxe de recherche, l’outil interactif de visualisation des filtres retrouve des termes ou des locutions dans les documents en décomposant l’analyse en sous-ensembles.

Visualiser la capture d'écran

Capture d'écran
Analyse, filtrage de texte et identification des thématiques de texte

Visualiser la capture d'écran

Capture d'écran
Filtrage

Filtrage (sur le terme « accelerate » dans cet exemple) permettant à SAS Text Miner de détecter automatiquement toutes les variantes possibles

Visualiser la capture d'écran

Capture d'écran
Afficher les sujets par document et modifier la pondération des thèmes

Sélection d’un sujet par la mise en surbrillance de l'un des documents associés. Les utilisateurs modifient la pondération ou le seuil d’un thème en cliquant sur la cellule pour y saisir une autre valeur.

Visualiser la capture d'écran

Configuration requise

Host Platforms/Server Tier

  • HP/UX on Itanium: 11iv3 (11.31)
  • IBM AIX R64 on POWER architecture 7.1
  • IBM z/OS: V1R11 and highe
  • Linux x64 (64-bit): Novell SuSE 11 SP1; Red Hat Enterprise Linux 6.1; Oracle Linux 6.
  • Microsoft Windows on x64 (64-bit):
    Desktop: Windows 7* x64 SP1; Windows 8** x64
    Server: Windows Server 2008 x64 SP2 Family; Windows Server 2008 R2 SP1 Family; Windows Server 2012 Family
  • Solaris on SPARC: Version 10 Update 
  • Solaris on x64 (x64-86): Version 10 Update 9; Version 1

Middle Tier

  • HP/UX on Itanium
  • IBM AIX on POWER
  • Linux x64 (x86-64)
  • Microsoft Windows x64 (x86-64)
  • Solaris (SPARC and x64)

Supported Web Browsers

  • Internet Explorer 9: Windows 7 (32-bit and x64 32-bit Web browsers)
  • Internet Explorer 10: Windows 7 and Windows 8 (32-bit and x64 32-bit Web browsers)
  • Firefox 6 and up: Windows 7 and Windows 8 (32-bit and x64 32-bit Web browsers); Linux x64: RHEL 6 and SLES 11 (32-bit Web browsers)
  • Chrome 15 and up: Windows 7 and Windows 8 (32-bit and x64 32-bit Web browsers); Linux x64: RHEL 6.1 and SLES 11 SP 1 (32-bit Web browsers)

* Windows 7 supported editions are: Professional, Ultimate and Enterprise.
** Windows 8 supported editions are: Standard, Pro and Enterprise.

SAS® Text Miner for Desktop

Client Tier

  • Microsoft Windows (64-bit): Windows 7* x64 SP1; Windows 8** x64

*Windows 7 supported editions are: Professional, Ultimate and Enterprise.
** Windows 8 supported editions are: Standard, Pro and Enterprise.

Required software

  • SAS Enterprise Miner is required and must be installed on the same machine as SAS Text Miner; or, SAS Enterprise Miner for Desktop is required and must be installed on the same machine as SAS Text Miner for Desktop.

Please consult your local SAS sales representative if you have questions about your platform requirements. Also, for more detailed information, please visit our support site.

Plus d'informations sur nos services et solutions ?

Contactez SAS France au +33 1 60 62 11 11 ou utilisez le formulaire en ligne.