Produits et Solutions / Catégorisation de contenu

SAS® Enterprise Content Categorization

Accélérez et optimisez le classement, la consultation et la recherche de contenu avec la catégorisation automatisée

SAS Enterprise Content Categorization fait appel à des techniques Teragram de traitement du langage naturel et de linguistique avancée pour catégoriser automatiquement de gros volumes de contenu multilingue acquis, généré ou stocké dans un référentiel.

Son analyse du contenu des entités et des événements sert ensuite à créer des métadonnées, à élaborer des taxinomies et à instaurer des règles de catégorisation et des définitions de concept qui s'appliquent aux gros volumes de documents et déclenchent des processus métier.

Bénéfices

  • Les utilisateurs trouvent plus rapidement les informations souhaitées
  • Accès à l’information plus rapide et mieux ciblé dans toute l’entreprise
  • Fin du chaos qui règne sur les référentiels documentaires

En savoir plus

Fonctionnalités

  • Extraction d’entités, de faits et d’événements
  • Extraction contextuelle
  • Classification en catégories
  • Création de taxinomies
  • Collaboration
  • Intégration immédiate
  • Prise en charge de plus d’une trentaine de langues
  • Modules complémentaires disponibles pour la synthèse de texte, le téléchargement, la recherche et l’indexation web, les alertes en temps réel, etc.

En savoir plus

Capture d'écran

L’interface graphique permet d’analyser et de classer de grandes quantités d’informations.


Captures d'écran

Les atouts de SAS

  • Le classement systématique du contenu en structures définies permet d'associer en temps réel les nouvelles données aux sources textuelles existantes.
  • L'expertise par domaine est hiérarchisée en conséquence, et les documents textuels sont automatiquement affectés dans les classifications définies.
  • SAS Enterprise Content Categorization est synonyme de gain de temps et d'efficacité puisque les recherches portent sur les informations les plus pertinentes.

Bénéfices

  • Les utilisateurs trouvent plus rapidement les informations souhaitées

    Les utilisateurs retrouvent les informations dont ils ont besoin — qu'ils les aient déjà manipulées auparavant ou non, ou qu'ils connaissent ou non le référentiel de stockage utilisé. Le contenu est extrait en contexte, et les interactions utilisateurs/contenu garantissent l'efficacité de la recherche. Il existe plusieurs modes d'extraction en fonction des besoins proposés ; ils s'accompagnent des mesures de protection nécessaires.

  • Accès à l’information plus rapide et mieux ciblé dans toute l’entreprise

    Capable d'appliquer des règles linguistiques de désignation univoque et de définir des règles de classement des documents, SAS Enterprise Content Categorization réduit le coût des processus de catégorisation liés au balisage manuel et à l'indexation rétrospective.

  • Fin du chaos qui règne sur les référentiels documentaires

    Les référentiels d'entreprise contiennent souvent des documents en double ou qui ont fait l'objet de modifications avant une nouvelle publication. SAS Enterprise Content Categorization permet d'abstraire certains formats pour concentrer la recherche sur le contenu ; vous repérez ainsi les documents identiques, ceux qui présentent de légères variantes et ceux qui comportent des modifications substantielles.

Fonctionnalités

Extraction d’entités, de faits et d’événements
  • Des concepts simples résultent de la conversion de grandes quantités de données en éléments d'information aisément compréhensibles.
  • Des concepts dérivés de la lexicographie, de la grammaire et d'expressions génériques simplifient la localisation des données liées.
  • Interface utilisateur graphique intuitive facilitant la classification d'informations complexes.
  • Classification personnalisée automatique et extraction d'entités sur de gros volumes de contenu multilingue.
Extraction contextuelle
  • Localisation et extraction contextuelle, en temps réel, des éléments de données constituant un fait ou un événement.
  • Inutilité des dictionnaires précompilés pour identifier des informations inconnues.
  • Écriture de règles contextuelles pour l'extraction automatique de faits et d'événements.
  • Renvoi automatique exclusif des faits et événements les plus prioritaires ou les plus concordants.
  • Personnalisation des critères de correspondance au moyen de marqueurs contextuels, de parties du discours, de la distinction majuscules/minuscules et d'opérateurs booléens.
  • Écriture de règles multiples permettant d'extraire toutes les permutations possibles des données recherchées.
  • Exclusion de certaines correspondances pour les faits et événements.
Classification en catégories
  • Application automatique de technologies de traitement du langage naturel et de linguistique avancée pour repérer et classer les informations clés.
  • Utilisation de règles linguistiques ou d'opérateurs booléens pour mieux cibler l'appartenance de certains termes à telle ou telle catégorie.
  • Création de règles de catégorisation et de définitions de concept simples ou complexes.
  • Élaboration d'une liste de désignations univoques pour chaque règle de catégorisation.
  • Pondération de certains termes ou des catégories elles-mêmes, affinant les conditions d'appartenance.
  • Utilisation d'interfaces de test et documentaires pour valider l'application de règles et définitions au contenu, en tout ou partie ou par lots.
  • Application automatique de ces règles et définitions aux textes entrants via des API clientes en C, C++, C#.NET, Java, Perl ou Python.
Création de taxinomies
  • Utilisation d'interfaces intuitives pour élaborer des taxinomies, et rédiger les règles de catégorisation et définitions de concept applicables aux nœuds taxinomiques.
  • Utilisation d'un nombre illimité de nœuds de taxinomie et application des catégories et concepts générés à de gros volumes de documents.
  • Mise à profit de la taxinomie de la Bibliothèque du Congrès (Library of Congress) pour la conceptualisation des définitions hiérarchiques.
  • Élaboration d'une taxinomie hiérarchique avec regroupement des sujets apparentés, ou création d'une taxinomie linéaire où les nœuds de l'arborescence sont totalement indépendants les uns des autres.
  • Taxinomies prédéfinies sous forme de modules complémentaires : IPTC pour la presse, l'édition et la communication, et MeSH pour les sciences de la vie et les secteurs pharmaceutique et médical.
Collaboration
  • Niveaux d'autorisation couvrant les opérations en lecture et en écriture, les règles de catégorisation et les définitions de concept.
Intégration immédiate
  • Balisage automatique du contenu Microsoft Office SharePoint, Endeca, FAST ESP et Documentum à l'aide d'outils d'intégration présents.
  • Balisage des documents avant indexation pour accélérer leur traitement.
  • Enrichissement des outils de recherche.
Prise en charge de plus d’une trentaine de langues
  • Utilisation de technologies de traitement du langage naturel et de linguistique avancée avec :
    • Balisage des parties du discours pour identifier les substantifs, verbes, adjectifs, etc.
    • Indexation par radicaux pour repérer les diverses formes des substantifs ou verbes à traiter.
    • Distinction majuscules/minuscules pour affiner la reconnaissance de concepts.
  • Deux options possibles pour les langues germaniques et asiatiques :
    • Identification et décomposition des mots composés.
    • Segmentation des langues asiatiques.
  • Version fournie en anglais et dans la langue du pays. D'autres versions localisées peuvent être utilisées sous licence sous forme de modules complémentaires.
Modules complémentaires disponibles pour la synthèse de texte, le téléchargement, la recherche et l’indexation web, les alertes en temps réel, etc.
  • SAS® Document Duplication Detection - Identification des documents identiques à concurrence d'un seuil de similarité.
  • SAS® Text Summarization - Analyse des documents et création d'une synthèse.
  • SAS® Search and Indexing - Interprétation automatique de la sémantique des requêtes, avec fonctions d'analyse détaillée.
  • SAS® Web Crawler - Téléchargement automatique de documents sur Internet.
  • SAS® Content Categorization Information Workbench - Outil de workflow associant révision éditoriale humaine et catégorisation automatique.
  • SAS® Content Alerts - Services de notification proposant diverses formes d'alertes.
  • SAS® MeSH Rules - Taxinomie prédéfinie pour le secteur médical.
  • SAS® IPTC Rules - Taxinomie prédéfinie pour la presse et les médias.
  • SAS® Text Data Language Pack - Choix de langues asiatiques et orientales ainsi que de l'Europe de l'Ouest et du Moyen-Orient (SAS Enterprise Content Categorization est fourni en anglais et dans la langue du pays dans lequel la licence est exploitée).

Captures d'écran

Capture d'écran
L’interface graphique permet d’analyser et de classer de grandes quantités d’informations.

Au moyen de l’interface graphique, créez un projet et définissez les concepts contextuels qui seront automatiquement extraits de corpus de textes.

Visualiser la capture d'écran

Capture d'écran
Localiser des faits dans des documents en utilisant des technologies de linguistique avancées

Les règles prédicatives font partie des technologies de linguistique avancées qui permettent de localiser des faits dans des documents et de les associer aux catégories correspondantes.

Visualiser la capture d'écran

Capture d'écran
Visualisez les correspondances pour chaque définition de concept

Avec SAS Enterprise Content Categorization, vous visualisez facilement les correspondances pour chaque définition de concept en phase de test.

Visualiser la capture d'écran

Configuration requise

All add-ons must license SAS Enterprise Content Categorization or the single-user version SAS Content Categorization. Because supported platforms vary for each add-on, please check the Features tab for specific platform information.

Client environment
  • Linux for x86 (x86-32): RHEL 4, SuSE SLES 9
  • Microsoft Windows (x86-32 and x64): Windows XP Professional, Windows Vista*, Windows Server 2003 family
Server environment
  • AIX: Versions 5.3 and 6.1 (x64) on POWER architectures
  • HP-UX Itanium: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • HP-UX PA-RISC: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • Linux for x86 (x86-32): RHEL 4, SuSE SLES 9
  • Linux for x64 (EM64T/AMD64): RHEL 4, SuSE SLES 9
  • Microsoft Windows (x86-32): Windows XP Professional, Windows Server 2003,Windows Vista*
  • Microsoft Windows on x64 (EM64T/AMD64): Windows XP Professional for x64, Windows Vista* for x64, Windows Server 2003 for x64
  • Solaris on SPARC: Versions 9 and 10
  • Solaris on x64: Version 10

* NOTE: Windows Vista editions that are supported include Enterprise, Business and Ultimate

Plus d'informations sur nos services et solutions ?

Contactez SAS France au +33 1 60 62 11 11 ou utilisez le formulaire en ligne.