Productos y Soluciones / SAS® Enterprise Content Categorization

Módulos complementarios de SAS® Enterprise Content Categorization

Personalice su solución para facilitar la organización, acceso y búsqueda de información

Los módulos adicionales de SAS® Enterprise Content Categorization, desarrollados con la tecnología de Teragram, aplican el procesamiento en lenguaje natural (NLP) y técnicas avanzadas de lingüística para automatizar las operaciones de procesamiento de textos ayudando a que las empresas mejoren su eficiencia de manera rápida donde más lo necesitan.

Al aumentar la categorización de contenidos, estas funciones complementarias son escalables a enormes cantidades de información, proporcionando la misma velocidad de procesamiento para cualquier cantidad de datos, codificando además estos datos de una forma altamente comprimida. Estos complementos permiten a las organizaciones personalizar sus soluciones de gestión de contenidos y así mejorar las operaciones de procesos empresariales centradas en documentos, con la posibilidad de añadir más funciones a medida que cambian sus necesidades.

Beneficios

  • Permita a los usuarios encontrar la información que necesitan de manera más rápida.
  • Permita un acceso más rápido y más eficiente a la información.
  • Permita depurar el caos de contenido generado al tener repositorios con múltiples documentos.

Leer más

Características

  • La función detección de documentos duplicados de SAS identifica documentos similares.
  • La función de búsqueda e indexación de SAS identifica automáticamente la semántica de consulta y proporciona mejores funciones de desplazamiento.
  • La función de resumen de textos SAS depura documentos y crea resúmenes concisos.
  • La función de rastreo web de SAS descarga automáticamente documentos desde internet.
  • La función de plataforma de información de SAS® Enterprise Content Categorization combina la revisión de edición manual con funciones de categorización automática.
  • La función de alertas de contenido SAS proporciona servicios de notificación a través de una variedad de medios de alerta.
  • La función de normas MeSH de SAS proporciona una taxonomía predeterminada específicamente para la industria médica.
  • SAS® IPTC Rules provide a prebuilt taxonomy designed La función de Normas IPTC de SAS proporciona una taxonomía predeterminada específicamente para los medios informativos y de comunicación.
  • La opción del portafolio de datos de idiomas de textos SAS ofrece una variedad de idiomas de Asia, Europa Oriental, Europa Occidental y Medio Oriente.

Leer más

¿Qué hace diferente a SAS®?

  • SAS extiende los procesos empresariales basados en la categorización precisa de contenidos con varios módulos complementarios, proporcionando gran eficiencia en las actividades de búsqueda y recuperación, resúmenes significativos de los materiales, alertas en tiempo real para la disponibilidad de nuevos contenidos, entre otros.
  • Estas tecnologías únicas permiten un procesamiento más eficaz a nivel de palabras, relaciones lingüísticas y significados de las palabras y solucionan así los problemas asociados con el exceso de material de información electrónica y su tasa de crecimiento exponencial.
  • Los módulos complementarios de SAS® Enterprise Content Categorization permiten personalizar la solución de categorización de contenidos de SAS para satisfacer necesidades específicas de la empresa.

Beneficios

  • Permita a los usuarios encontrar la información que necesitan de manera más rápida. La facilidad de búsqueda permite recuperar contenido en contexto para que los usuarios puedan localizar la información que necesitan aunque no sepan donde se encuentra ubicada. Las funciones de los complementos incluyen la búsqueda e indexación para reducir la información recuperada, un rastreador web de alto desempeño que descarga automáticamente de Internet los documentos pertinentes para asociarlos con las taxonomías existentes, un módulo de resumen de texto que transmite los mensajes importantes dentro de un documento de manera condensada y un servicio de alerta en tiempo real escalable que envía documentos a millones de usuarios a horas especificadas individualmente.
  • Permita un acceso más rápido y más eficiente a la información. El módulo complementario de búsqueda e indexación de SAS identifica automáticamente la semántica de consulta y proporciona mejores funciones de desplazamiento detallado para mejorar las técnicas de investigación de los usuarios. Después de reducir la información sólo a las fuentes relevantes, este complemento aplica a la derivación y corrección ortográfica automática, permitiendo un preprocesamiento más eficaz. Al aplicar estas tecnologías lingüísticas al preprocesamiento, las búsquedas son más precisas y relevantes.
  • Permita depurar el caos de contenido generado al tener repositorios con múltiples documentos. Los repositorios empresariales contienen a menudo muchos documentos que fueron duplicados o editados y publicados nuevamente. Al extender la categorización de contenido similar, el complemento detección de documentos duplicados de SAS ayuda a las empresas a minimizar sus almacenes de contenidos, manteniendo sólo aquellos materiales que cumplan con los estándares del umbral de similitud.

Características

La función detección de documentos duplicados de SAS identifica documentos similares.
  • Diseñado para reconocer, dentro de un gran conjunto, qué documentos son similares hasta un umbral de similitud determinado.
  • El umbral de similitud configurable permite al sistema detectar versiones de documentos que hayan sido objeto de reedición sustancial o centrarse en los documentos que tengan pequeñas variaciones con respecto a otros.
  • Extracción de documentos desde su formato real y enfoque en el contenido del documento.
  • Plataformas compatibles (solamente para servidor): AIX, HP-UX Itanium, HP-UX PA-RISC, Linux para x86, Linux para x64, Microsoft Windows (x86-32), Microsoft Windows en x64, Solaris en SPARC y Solaris x64.
La función de búsqueda e indexación de SAS identifica automáticamente la semántica de consulta y proporciona mejores funciones de desplazamiento.
  • Aplicación de técnicas lingüísticas a nivel de preprocesamiento para búsquedas de consultas y documentos y así obtener resultados más precisos y relevantes.
  • Uso de tecnologías lingüísticas avanzadas como la derivación y corrección ortográfica automática para proporcionar un procesamiento más eficaz a nivel de palabras, relaciones lingüísticas y significado de palabras.
  • Organización de la información en un directorio jerárquico intuitivo que sintetiza categorías específicas en categorías más generales, lo que permite una mayor flexibilidad.
  • Reducción de búsquedas dentro de una categoría o navegación entre los documentos de la categoría de interés.
  • Plataformas compatibles (solamente para servidor): AIX, HP-UX PA-RISC, HP-UX Itanium, Linux para x86, Linux para x64, Microsoft Windows (x86-32), Microsoft Windows en x64, Solaris en SPARC y Solaris x64.
La función de resumen de textos SAS depura documentos y crea resúmenes concisos.
  • Los documentos se resumen de forma automática para una amplia distribución de contenidos.
  • El orden natural de las frases clave describe la esencia del texto para que sea significativo para los lectores.
  • Definición de la importancia relativa de conceptos especiales (es decir, palabras ancla o cadenas de palabras) para capturar conocimientos especializados.
  • Aprovechamiento de conceptos y taxonomías de conceptos existentes para definir conceptos individuales o relacionales y formar la base de las definiciones que se buscan en la identificación de frases clave, incluyendo conceptos del clasificador (listas de autoridad), conceptos Regex (expresiones regulares) y conceptos de gramática (patrones sintácticos).
  • Los documentos escritos en idiomas diferentes se pueden resumir sin perder el significado inherente del idioma del contenido original.
  • La tokenización de palabras depende del idioma del material que será resumido.
  • Plataformas compatibles (cliente): Linux para x86, Microsoft Windows (x86-32 y x64).
  • Plataformas compatibles (servidor): AIX, HP-UX PA-RISC, HP-UX Itanium, Linux para x86, Linux para x64, Microsoft Windows (x86-32), Microsoft Windows en x64,
  • Solaris en SPARC y Solaris x64.
La función de rastreo web de SAS descarga automáticamente documentos desde internet.
  • A partir de una URL especificada por el usuario, el rastreador sigue los hipervínculos de la web y envía de manera repetitiva solicitudes HTTP para obtener simultáneamente el contenido correspondiente en HTML y todas las URL existentes dentro de ese contenido.
  • Rastreador de alto desempeño: Se usa en modo multitarea para permitir la configuración del número de tareas.
  • Rastreador distribuido: Modo de ejecución distribuida para optimizar el rastreo. Cuando varios rastreadores se ejecutan al mismo tiempo, cada rastreador envía el conjunto correcto de enlaces al rastreador al que pueden pertenecer.
  • Rastreador en aumento: Permite descargas continuas.
  • Calidad de la página: Rastreo prioritario de las páginas de más alta calidad cuando la cantidad de páginas de objetos es muy grande. Los duplicados de las direcciones URL o de contenidos de páginas se eliminan automáticamente.
  • Descargas "respetuosas" que evitan quejas o bloqueos al acceso de sitios rastreados. Especificación del intervalo de acceso mínimo para descargas continuas de cada sitio, conexiones paralelas máximas a cada sitio o dominio o el número máximo de veces para volver a intentar cada solicitud HTTP.
  • Análisis JavaScript: Extracción de la dirección URL desde JavaScripts donde el contenido está a menudo profundamente integrado.
  • Inicio de sesión para sitios web soportados por cookies y protegidos con contraseña.
  • Configuración y gestión mejoradas:
    • Puntos de entrada: Especificación de una lista de direcciones URL para iniciar el rastreo y definición del número de páginas iniciales de cada fuente completa.
    • Listado de portales: Definición de direcciones URL para descargar sin necesidad de extraer nuevas URL.
    • Restricciones para seguimiento de enlaces: Definición de las reglas de seguimiento de enlaces con expresiones normales para restringir el área de rastreo - por ejemplo, restringir el rastreo en un directorio, un servidor o un dominio.
    • Rutas excluidas: Lista de direcciones URL que no serán incluidas en el rastreo. Toda dirección URL que no sea punto de entrada no será incluida si contiene un patrón de exclusión.
  • Plataformas compatibles (solamente servidor): AIX, HP-UX PA-RISC, HP-UX Itanium, Linux para x86, Linux para x64, Microsoft Windows (x86-32), Microsoft Windows en x64, Solaris en SPARC y Solaris x64.<}0{>AIX, HP-UX PA-RISC, HP-UX Itanium, Linux para x86, Linux para x64, Microsoft Windows (x86-32), Microsoft Windows en x64, Solaris en SPARC y Solaris x64.
La función de plataforma de información de SAS® Enterprise Content Categorization combina la revisión de edición manual con funciones de categorización automática.
  • Herramienta de flujo de trabajo que incluye preparación automática de resúmenes, categorización y extracción de entidades especialmente diseñada para indexadores o editores.
  • Revisión de edición manual con funciones de preparación automática de resúmenes, categorización y etiquetado de metadatos.
  • Aumento de la productividad y del valor medible del negocio e incremento significativo del retorno de la inversión, eliminando además los riesgos de la automatización completa.
  • Ciclo de retroalimentación a la herramienta de taxonomía para la edición de esta con base en el uso de nodos.
  • Plataformas compatibles (solamente cliente): Linux para x86, Microsoft Windows (x86-32 y x64).
La función de alertas de contenido SAS proporciona servicios de notificación a través de una variedad de medios de alerta.
  • Especificación de alertas por correo electrónico en HTML, texto o XML.
  • Uso del correo electrónico, SMS u otro medio para las alertas.
  • Varias alertas dirigidas al mismo usuario que se pueden combinar en una sola alerta.
  • Todas las alertas están codificadas en un formato intermedio XML para el procesamiento de entrega.
  • Los usuarios pueden especificar el momento en que las alertas deben ser enviadas (hora del día o tan pronto como sea posible).
  • Comunicación directa a través del protocolo SMTP a un servidor de correo. Verificación automática de mensajes de correo electrónico devueltos mediante el acceso a un servidor POP.
  • Generación de archivos con preformato para utilizar con los programas de correo electrónico actuales.
  • Altamente escalable a millones de usuarios con flujo constante de documentos.
  • Plataformas compatibles (solamente servidor): AIX, HP-UX PA-RISC, HP-UX Itanium, Linux para x86, Linux para x64, Microsoft Windows (x86-32), Microsoft Windows en x64, Solaris en SPARC y Solaris x64.
La función de normas MeSH de SAS proporciona una taxonomía predeterminada específicamente para la industria médica.
  • Proporciona una taxonomía predeterminada para las normas MeSH (Encabezado de Temas Médicos de la Biblioteca Nacional de Medicina de los Estados Unidos), diseñadas específicamente para la industria farmacéutica, las ciencias y la industria médica.
  • Las actualizaciones se incluyen como parte del acuerdo de licencia.
  • Plataformas compatibles (cliente solamente): Microsoft Windows (x86-32 y x64).
SAS® IPTC Rules provide a prebuilt taxonomy designed La función de Normas IPTC de SAS proporciona una taxonomía predeterminada específicamente para los medios informativos y de comunicación.
  • Proporciona una taxonomía predeterminada para las normas IPTC (International Press Telecommunications Council), diseñadas específicamente para la industria de los medios informativos y de comunicación.
  • Las actualizaciones se incluyen como parte del acuerdo de licencia.
  • Plataformas compatibles (cliente solamente): Microsoft Windows (x86-32 y x64).
La opción del portafolio de datos de idiomas de textos SAS ofrece una variedad de idiomas de Asia, Europa Oriental, Europa Occidental y Medio Oriente.
  • SAS® Enterprise Content Categorization emite resultados en inglés y en el idioma local si es diferente al inglés.
  • Los idiomas disponibles son, entre otros, idiomas de Asia, Europa Oriental, Europa Occidental y Medio Oriente.
  • Plataformas compatibles (cliente solamente): Microsoft Windows (x86-32 y x64).

Requerimientos del sistema

All add-ons must license SAS Enterprise Content Categorization or the single-user version SAS Content Categorization. Because supported platforms vary for each add-on, please check the Features tab for specific platform information.

Client environment
  • Linux for x86 (x86-32): RHEL 4, SuSE SLES 9
  • Microsoft Windows (x86-32 and x64): Windows XP Professional, Windows Vista*, Windows Server 2003 family
Server environment
  • AIX: Versions 5.3 and 6.1 (x64) on POWER architectures
  • HP-UX Itanium: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • HP-UX PA-RISC: HP-UX 11iv2 (11.23), 11iv3 (11.31)
  • Linux for x86 (x86-32): RHEL 4, SuSE SLES 9
  • Linux for x64 (EM64T/AMD64): RHEL 4, SuSE SLES 9
  • Microsoft Windows (x86-32): Windows XP Professional, Windows Server 2003,Windows Vista*
  • Microsoft Windows on x64 (EM64T/AMD64): Windows XP Professional for x64, Windows Vista* for x64, Windows Server 2003 for x64
  • Solaris on SPARC: Versions 9 and 10
  • Solaris on x64: Version 10
* NOTE: Windows Vista editions that are supported include Enterprise, Business and Ultimate

Desea más información?

Para hablar con un representante de SAS de inmediato, llame al 01800 1127 727 de 9:00 a.m. a 6:00 p.m. o solicite más información online.