Productos y Soluciones / Enterprise Content Categorization

SAS® Enterprise Content Categorization

Organización, acceso y búsqueda de información de forma rápida y eficiente gracias a la categorización automatizada de contenido.

SAS® Enterprise Content Categorization, desarrollado con tecnología Teragram, aplica el procesamiento en lenguaje natural  (NPL) y técnicas lingüísticas avanzadas para clasificar de manera rápida y automática grandes cantidades de contenido multilingüe adquirido, generado o existente en los repositorios. Revisa y analiza sinctácticamente el contenido para detectar entidades y eventos que después son utilizados para crear metadatos, desarrollar taxonomías y generar reglas de categorías y definiciones de conceptos que se pueden aplicar a grandes cantidades de documentos y que dan inicio a los procesos empresariales.

Beneficios

  • Permite a los usuarios encontrar la información que necesitan de manera más rápida.
  • Permite un acceso más rápido a la información relevante en todas las áreas de la organización.
  • Permite depurar el caos de contenido generado al tener repositorios con múltiples documentos.

Leer más

Características

  • Extracción de entidades, hechos y eventos
  • Extracción contextual
  • Clasificación por categorías
  • Creación de taxonomías
  • Colaboración
  • Integración inmediata
  • Compatibilidad con más de 30 idiomas
  • Complementos disponibles para el rastreo, resumen de texto, búsqueda e indexación, alertas en tiempo real y más funciones en la web.

Leer más

Screenshot

A GUI helps you distill and classify large quantities of information.


Screenshots

¿Qué hace diferente a SAS®?

  • SAS Enterprise Content Categorization systematically organizes material according to defined structures to consistently provide real-time association of new material to existing text sources.
  • Subject-matter expertise is captured in specified hierarchies, and text documents are automatically assigned to the defined classifications.
  • SAS Enterprise Content Categorization saves time and increases efficiency by focusing search efforts on the most relevant information.

Beneficios

  • Permite a los usuarios encontrar la información que necesitan de manera más rápida. Los usuarios podrán localizar la información que necesitan con gran facilidad y aunque no la hayan utilizado anteriormente sabrán exactamente en qué repositorio se encuentra ubicada. Esta facilidad para encontrar información permite recuperar contenido en contexto y proporciona una interacción intuitiva entre los usuarios y el contenido. Ofrece múltiples opciones para recuperar contenidos, cada una adaptada a una necesidad específica, contando con los controles necesarios de seguridad de contenidos.
  • Permite un acceso más rápido a la información relevante en todas las áreas de la organización. Con la flexibilidad para aplicar reglas lingüísticas a términos únicos de identificación y la capacidad de definir reglas de categorías para clasificar los documentos que coinciden con éstas, SAS® Enterprise Content Categorization reduce la sobrecarga asociada a los procesos de categorización de contenidos, como el etiquetado manual y la indexación retrospectiva.
  • Permite depurar el caos de contenido generado al tener repositorios con múltiples documentos. Los repositorios empresariales contienen a menudo muchos documentos que fueron duplicados o editados y publicados nuevamente. SAS® Enterprise Content Categorization permite extraer formatos de documentos reales desde las grandes colecciones de documentos y centrarse en el contenido para detectar similitudes, es decir, identificar cuáles tienen sólo pequeñas variaciones y cuáles fueron modificados sustancialmente.

Características

Extracción de entidades, hechos y eventos
  • Transformación de grandes cantidades de información extraída de conceptos simples en información resumida y fácilmente comprensible.
  • Diccionario, gramática y conceptos basados en expresiones comunes que simplifican el proceso de localización de los datos relacionados.
  • Interfaz gráfica de usuario intuitiva para realizar tareas complejas de clasificación de la información.
  • Clasificación automática personalizada  y aplicación de entidades en grandes volúmenes de contenido multilingüe.
Extracción contextual
  • Localización y reincorporación de partes de datos relacionadas que hacen parte de un hecho o un evento con base en su contexto en tiempo real.
  • No requiere el uso de diccionarios precompilados para identificar información desconocida.
  • Creación de normas específicas a contextos que extraen automáticamente hechos y eventos.
  • Incorporación automática de los hechos y eventos de mayor prioridad o que mejor se ajustan.
  • Personalización de criterios usando marcadores de contexto, componentes del discurso, identificación de mayúsculas y minúsculas y operadores booleanos.
  • Creación de múltiples reglas para extraer todas las permutaciones posibles de los datos buscados.
  • Exclusión de ciertos resultados para hechos y eventos.
Clasificación por categorías
  • Aplicación automática de procesamiento en lenguaje natural y técnicas lingüísticas avanzadas para clasificar e identificar información clave.
  • Utilización de reglas lingüísticas o adición de operadores booleanos a términos únicos para agregar especificidad en la determinación de pertenencia a una categoría.
  • Creación de reglas de categorías y definiciones de conceptos sencillas o complejas.
  • Lista de términos únicos de identificación para cada regla de categorías.
  • Ponderación de términos selectivos o de las categorías mismas creando requisitos de pertenencia más exclusivos.
  • Uso de interfaces de prueba y de documentos para validar la aplicación de reglas y definiciones a componentes por lote, completos o de contenido.
  • Aplicación automática de reglas y definiciones a textos de entrada usando el cliente APIs en C, C++, C#.NET, Java, Perl o Python.
Creación de taxonomías
  • Uso de interfaces intuitivas para desarrollar taxonomías y escribir reglas de categorías y definiciones de conceptos para clasificar los nodos de taxonomías.
  • Uso de un número ilimitado de nodos de taxonomías y aplicación de las categorías y conceptos generados a grandes volúmenes de documentos de entrada.
  • Aprovechamiento de la taxonomía de la Biblioteca del Congreso para iniciar las definiciones de jerarquía de conceptos.
  • Posibilidad de desarrollar  una taxonomía jerárquica para agrupar temas relacionados o de una taxonomía plana en la que no exista relación entre ninguno de los nodos del árbol de taxonomía.
  • Taxonomías predeterminadas disponibles como complementos: Normas IPTC para agencias de noticias, medios de comunicación y empresas de publicación, y normas MeSH para empresas farmacéuticas, ciencias médicas y otras empresas relacionadas con medicina.
Colaboración
  • Niveles de autorización para lectura, escritura, reglas de categorías y definiciones de conceptos.
Integración inmediata
  • Etiquetado automático de contenido de Microsoft Office SharePoint, Endeca, FAST ESP y Documentum con soluciones de integración predeterminadas.
  • Etiquetado de documentos antes de la indexación para acelerar el tiempo de procesamiento.
  • Extensión de las funciones de las herramientas de búsqueda existentes.
Compatibilidad con más de 30 idiomas
  • Procesamiento en lenguaje natural (PNL) y técnicas lingüísticas avanzadas que proporcionan: :
    • Reconocimiento de componentes del discurso y etiquetado para el reconocimiento de sustantivos, verbos, adjetivos, etc.
    • Derivación para localizar las diferentes formas de un sustantivo o verbo.
    • Distinción entre mayúsculas y minúsculas para especificar el reconocimiento de mayúsculas y/o minúsculas en conceptos.
  • Dos opciones para las lenguas germánicas y asiáticas:
    • Reconocimiento y descomposición de términos compuestos para separar las palabras compuestas reconocidas.
    • Segmentación para lenguas asiáticas.
  • Resultados en inglés y en el idioma local si es diferente de inglés. Otros idiomas pueden ser agregados como complementos.
Complementos disponibles para el rastreo, resumen de texto, búsqueda e indexación, alertas en tiempo real y más funciones en la web.
  • Detección de documentos duplicados de SAS: Reconoce documentos similares usando un umbral de similitud.
  • Resumen de textos SAS: Depura documentos y crea resúmenes concisos.
  • Búsqueda e indexación de SAS: Identifica automáticamente la semántica de consulta y proporciona mejores funciones de desplazamiento detallado.
  • Rastreo web SAS: Descarga automáticamente documentos desde internet.
  • Plataforma de información de SAS® Enterprise Content Categorization: Ofrece una herramienta de flujo de trabajo que combina la revisión de edición manual con funciones de categorización automática.
  • Alertas de contenido SAS: Proporciona servicios de notificación a través de una variedad de medios de alerta.
  • Normas MeSH SAS: Proporciona una taxonomía predeterminada específicamente para la industria médica.
  • Normas IPTC SAS: Proporciona una taxonomía predeterminada específicamente para la industria de medios informativos y de comunicación.
  • Portafolio de datos de idiomas de textos SAS: Ofrece una selección de idiomas de Asia, Europa Oriental, Europa Occidental y Medio Oriente (inglés y el idioma local incluidos con la licencia de SAS® Enterprise Content Categorization).

Screenshots

Screenshot
A GUI helps you distill and classify large quantities of information.

Use the GUI to create a project and define the contextual concepts that will be automatically extracted from text collections.

Ver Screenshot

Screenshot
Locate facts from documents using advanced linguistic technologies.

Predicate rules are among the advanced linguistic technologies that can be used to locate facts from documents and associate them with their given categories.

Ver Screenshot

Screenshot
View concept definition matches during testing.

With SAS Enterprise Content Categorization, it is easy to view the matches for each concept definition during the testing process.

Ver Screenshot

Requerimientos del sistema

SAS Enterprise Content Categorization is a standalone product that requires no other SAS modules.

Client environment
  • Microsoft Windows (x86-32 and x64): Windows XP Professional, Windows Server 2003 family, Windows Vista*

 Server environment
  • AIX: Versions 5.3 and 6.1 (x64) on POWER architectures
  • HP-UX Itanium: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • HP-UX PA-RISC: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • Linux for x86 (x86-32): RHEL 4, SuSE SLES 9
  • Linux for x64 (EM64T/AMD64): RHEL 4, SuSE SLES 9
  • Microsoft Windows (x86-32): Windows XP Professional, Windows Server 2003, Windows Vista*
  • Microsoft Windows on x64 (EM64T/AMD64): Windows XP Professional for x64, Windows Server 2003 for x64, Windows Vista* for x64
  • Solaris on SPARC: Versions 9 and 10
  • Solaris on x64: Version 10

*  NOTE:  Windows Vista editions that are supported include Enterprise, Business and Ultimate

Desea más información?

Para hablar con un representante de SAS de inmediato, llame al 01800 1127 727 de 9:00 a.m. a 6:00 p.m. o solicite más información online.