Noticias / Notas de Prensa

SAS INSTITUTE ARGENTINA SA.
Alicia Moreau de Justo 550, 2º G
(C1107AAL) Ciudad Autónoma de Buenos Aires
Tel:(+54-11)-4878-4500
Fax: (+54-11)4878-4509
E-mail: informes@sas.com

Press Release

Versión para imprimir Versión para imprimir

Noticias

 

Analytics ya no es el de antes | SAS EDUCACIÓN ARGENTINA

Buenos Aires, Argentina  (07 Abr. 2011)  – "Analytics" hace referencia al uso de tecnologías y métodos de la matemática aplicada para acelerar y mejorar el descubrimiento, la comprensión y la acción (principalmente la decisión) de los más diversos procesos y características de todo tipo de actividades comerciales, manufactura e incluso científicas. Incluye áreas como data mining, forecasting, optimización y algunas otras. Se basa en técnicas estadísticas conocidas y tablas de datos prolijamente estructuradas. Pero el trabajo "tradicional" en Analytics ya no alcanza. Nuevas tecnologías, nuevos problemas y, también, nuevos enfoques sobre los problemas viejos han producido un cambio sustancial en esta disciplina. Actualmente Analytics incluye un número más amplio y diverso de técnicas, como el análisis de textos e imágenes, el de las interacciones sociales, la identificación de comunidades y roles, de actitudes y emociones, y varias cosas más.

Text Analytics

Hay unos dos mil millones de usuarios de Internet en este momento. Piense lo que esto implica a nivel de “contenido”. Páginas y páginas web (ya cientos de millones), un número aun mayor de “hits”, “clics”, referenciamientos, etc. Millones de imágenes y videos. Si ampliamos el espectro a los tweets, SMS, etc. la magnitud de los “datos” disponibles es astronómica. El único problema es que la mayoría de estos datos no están “estructurados”. En realidad, esta es una forma equívoca de presentar la situación. Cuando se habla de “estructura”, en este contexto, se habla de datos que están prolijamente incluidos y ordenados en tablas integradas por columnas con valores principalmente numéricos o categóricos simples (sexo, rol laboral, etc.). En este sentido, es cierto, los "datos" de textos e imágenes no tienen la estructura habitual, la forma de las tablas típicas usadas por las técnicas estadísticas tradicionales. Pero están muy lejos de ser “no estructurados”. Pueden atestiguar esto las disciplinas de la fonética, morfología, sintaxis, semántica,  pragmática y reconocimiento de imágenes, entre otras. Estas se encargan de estudiar y formalizar la peculiar y compleja estructura del lenguaje y las imágenes. Es decir, nuestros "contenidos" en Internet (y otros medios) tienen una estructura compleja, muy compleja, que hay que conocer apropiadamente para poder explotar la información valiosa contenida en ellos, implícita o explícitamente.

 “Text analytics” surgió como la disciplina que intenta explotar los contenidos en medios electrónicos para obtener nueva inteligencia sobre distintos fenómenos que tienen al texto como un componente fundamental. Los registros de los operadores de un call center, las declaraciones de seguros, impositivas o aduaneras, las notas de los medios noticiosos y muchas otras son fuentes sumamente ricas de información. Las anotaciones de un call center de atención a clientes tienen la versión más actual y precisa de las opiniones y actitudes de los clientes hacia una empresa. Es imprescindible incorporar esta información a cualquier campaña de marketing de adquisición, cross- o upsell, o anti-attrition. Las declaraciones de aduana son una herramienta fundamental para detectar fraudes. La utilidad de hacer inteligencia sobre textos (e imágenes) es indiscutible y, a esta altura de los acontecimientos, irrenunciable. si es que quiere evitar un serio handicap sobre su capacidad analítica.

En el gráfico de más abajo se compara la performance de varios modelos predictivos sobre un problema de detección de pólizas de seguros con potencial de compensación. Estos datos se utilizan en uno de los cursos de capacitación de SAS. La curva ROC de un modelo de regresión basado exclusivamente en datos típicos para este tipo de problemas (un modelo, podríamos decir, "estándar") muestra una performance relativamente mediocre. Sin embargo, cuando el conjunto de datos se enriquece con nuevos datos provenientes de un análisis de text mining (hecho sobre las pólizas y con tres niveles distintos de resolución en un análisis de descomposición de vectores singulares, una técnica fundamental de SAS en la aplicación de text mining), la performance de los modelos de regresión así enriquecidos mejora notablemente, como puede verse.

Figura 1 - Modelos de regresión con (Regression (2) a (4)) y sin (Regression) un análisis de text mining para enriquecer el conjunto de datos. Problema de predicción de potencial de recuperación sobre pólizas de seguros.

Figura 1 - Modelos de regresión con (Regression (2) a (4)) y sin (Regression) un análisis de text mining para enriquecer el conjunto de datos.
Problema de predicción de potencial de recuperación sobre pólizas de seguros.

Si bien su utilidad es evidente, hacer analytics sobre un texto requiere un "expertise" relativamente sofisticado que va bastante más allá del conocimiento estadístico estándar e incluso más allá del conocimiento de las herramientas usuales de data mining. Inicialmente, disciplinas como el procesamiento del lenguaje natural, la lingüística computacional, las tecnologías del habla aportaron herramientas. Luego, text mining contribuyó con algunas herramientas propias (utilización práctica de redes de conceptos, clustering de texto, descomposición de valores singulares aplicada a textos, la complementación con las técnicas numéricas características, etc.).

 Las técnicas de text analytics, permiten extraer contenido, clasificar texto, extraer y vincular conceptos, generar variables predictoras a incorporar en modelos predictivos, entre otras aplicaciones. Pero carecen de una dimensión muy importante: la de las actitudes y emociones de los productores de textos, un componente fundamental para comprender el estado de los clientes y decidir qué hacer al respecto. Entra aquí una disciplina más reciente, la “social media analytics”, y especialmente la subdisciplina denominada “sentiment analysis”.

Social Media Analytics (SMA)

"Social Media Analytics" es un término muy amplio que incluye servicios y herramientas usados para monitorear, medir y analizar "medios sociales" que combinan sistemas automatizados y algo de perspicacia humana para transformar complejos datos de la interacción entre las personas en información comercialmente útil.

El término "medios sociales" es muy genérico y se refiere a cualquier sitio donde ocurran "conversaciones" de relevancia comercial dentro de Internet. Aunque su origen es el de los foros de discusión y boletines de mensajes, actualmente se piensa más bien en cualquier sitio web que publique mensajes, en especial, aunque no exclusivamente, en Facebook , Twitter y otros medios semejantes.

Las herramientas de social media analytics se utilizan frecuentemente en cuestiones de marketing, relaciones públicas y comunicaciones, áreas en las que se la suele llamar "monitoreo de marcas". Pero también tiene funciones importantes en el servicio al cliente, la inteligencia competitiva y otras.

Un primer elemento importante en el análisis de medios sociales es la recolección de la información relevante. Para esto se usan "web crawlers" que puedan navegar por la red para encontrar y descargar la información relevante y alguna taxonomía léxica que vincule los términos extraídos con los temas de interés que se desea monitorear. La taxonomía se logra mediante algún tipo de "ontología".

La etapa siguiente es la comprensión (bajo alguna definición de esta última palabra) de las conversaciones consideradas relevantes. Para esto se utiliza algo que se denomina "sentiment analysis". Este tipo de análisis busca determinar la actitud de un hablante o escritor respecto de algún tópico. "Actitud" se refiere a su juicio o evaluación, su estado emocional o su comunicación emocional intencionada (el efecto emocional buscado). Por supuesto, no se busca realizar esta tarea por la "vía larga", es decir, comprendiendo lo expresado en un texto e infiriendo a partir del significado la actitud, estado emocional, etc., exactamente lo que hacemos nosotros. Esta es una vía costosa y aún no del todo bajo control de la tecnología actual.

En un enfoque básico, se busca clasificar la "polaridad" de un texto (en algún nivel): si la opinión expresada es positiva, negativa o neutral en una escala más simple o más compleja. En un enfoque un poco más complejo se busca clasificar un texto en una clase subjetiva u otra objetiva. En una perspectiva aun más elaborada, se busca determinar las opiniones o actitudes expresadas sobre diferentes características o aspectos de una entidad. Esta última tarea involucra varios subproblemas: identificar entidades relevantes, extraer características/aspectos y determinar si la opinión expresada sobre cada característica/aspecto es positiva, negativa o neutral. Son todos "atajos" respecto del procesamiento más elaborado, pero todavía intratable en nuestro estado tecnológico actual, que realizamos los seres humanos. En tanto atajos o aproximaciones tienen un grado variable de eficacia y confiabilidad que depende mucho de la perspicacia y destreza de los analistas.

Finalmente, son necesarios elementos gráficos que reflejen minuto a minuto las ideas y vueltas de las opiniones públicas, que muestren la evolución de las actitudes a lo largo de los días y semanas, alertas en tiempo real y "workflows" que encaminen apropiadamente la información producida para hacer posible que los grupos relevantes puedan tomar las acciones requeridas en el momento apropiado.

De cualquier manera, tomar en cuenta sentimientos y opiniones no alcanza. Estos y muchos otros sucesos de interés, como la propensión al fraude o a la adquisición de un servicio, están inmersos en una compleja red social que es un aspecto definitorio fundamental de estos fenómenos.

Social Network Analysis (SNA)

Estamos inmersos en redes sociales (y económicas, biológicas, químicas, entre otras). La tecnología de las comunicaciones y la computación no hicieron más que potenciar exponencialmente este hecho. Las redes sociales se manifiestan e influencias cualquier aspecto de nuestra vida. Es muy probable que usted tenga la misma compañía de celular que algunos de sus amigos o familiares, y es muy probable también que esto haya ocurrido justamente debido a que algunos de ellos tenían esa compañía previamente. Es muy probable también que si en algún momento usted estuvo descontento con dicha compañía y cambió por otra, este hecho haya influenciado a algunos de sus amigos o parientes para hacer lo mismo. La corrupción o el fraude no suele ocurrir como un suceso aislado, más bien es en fenómeno sistémico. Donde ocurre un hecho de este tipo es muy probable que ocurran (o hayan ocurrido) otros del mismo tipo. Existe en estos y muchos otros casos un efecto de "contagio". Se habla hasta en las películas de los "seis grados de separación" y de los "fenómenos de pequeños mundos", que no son sino distintos aspectos de la importancia de las redes sociales.

Esta cuestión ya fue estudiada hace muchos años por filósofos e incluso algunos sociólogos. Pero en las últimas décadas ha adquirido un foco de atención mucho mayor, y comenzaron a usarse distintas herramientas estadísticas asociadas a teoría de grafos para analizar estos fenómenos y desarrollar aplicaciones.

En marketing no alcanzan ya las técnicas estadísticas tradicionales. Se habla de marketing "viral" para aludir a las técnicas de marketing que buscan imponer una percepción, opinión o propensión mediante "contagio", de forma similar a la propagación de un virus (aunque la imagen en sí no resulte muy "marketinera"). Un enfoque similar es el del "marketing basado en redes sociales" (o tantos otros como word-of-mouth marketing, buzz marketing, etc.). Un conocido trabajo de investigación de hace un lustro (Hill, S., Provost, F. y Volinsky, C. "Network-Based Marketing: Identifying Likely Adopters via Consumer Networks". Statistical Science, 2006, 21, 2, 256-276) muestra que los "vecinos" en una red social (los consumidores vinculados a un consumidor previo de un servicio o producto) adoptan este a una tasa de 3 a 5 veces mayor que grupos de consumidores seleccionados mediante las mejores prácticas de las técnicas tradicionales de marketing.

La permanente extensión del campo de aplicación de data mining y sus fracasos (o, mejor dicho, sus "handicaps" en áreas como el fraude) dejan en claro que ya no alcanza el data mining "empírico" tradicional. Es necesario generar modelos sobre las relaciones entre individuos, no solo sobre los atributos de los individuos tomados aisladamente (bajo el supuesto de independencia entre estos individuos, un supuesto común en las técnicas estadísticas más populares, pero flagrantemente contrario a la realidad). Debemos hacer un "upgrade" en la representación de nuestros problemas de data mining: de un esquema "proposicional" a uno "relacional". Las herramientas para este "upgrade" son complejas: programación lógica inductiva, redes bayesianas relacionales, inferencias colectivas y otras tantas. Herramientas que aun son investigadas en los ámbitos universitarios y no consiguieron ingresar en el "mainstream" de las aplicaciones comerciales. Probablemente debido a su novedad, pero también su complejidad.

Un enfoque limitado, pero práctico, para la inclusión de los fenómenos de las redes sociales en modelos descriptivos y predictivos de data mining es la utilización de algoritmos y conceptos de teoría de grafos. Muchos de los fenómenos de interés (churn, adquisición, fraude) requieren la identificación de comunidades (grupos dentro de una red social más amplia), el monitoreo de características agregadas de esas comunidades (grado de cohesión, tamaño, roles internos de diversos tipos, etc.), la detección de patrones espaciales (en la topología de la red) y temporales (evolución de distintas propiedades vinculadas con los fenómenos de interés). Además, una cuestión práctica importante, es que nuestras redes sociales actuales están constituidas por millones de individuos y decenas o centenas de millones de vínculos entre ellos (piense en los poseedores de un teléfono celular como nodos de un grafo y las comunicaciones entre ellos como los arcos del grafo). Este hecho exige algoritmos sumamente eficaces para determinar las propiedades estadísticas de la red y sus subredes (incluso identificarlas), explorarlas visualmente y también almacenar y recuperar estos datos del modo más económico y eficiente posible, además de actualizarlos con frecuencia.

Herramientas de SAS

SAS, mediante la integración de las tecnologías de Teragram, una empresa adquirida en 2009 por SAS, posee actualmente varias herramientas para la aplicación de text analytics y social media analytics a problemas prácticos.

Las cuatro herramientas más importantes son:

  • SAS Enterprise Content Categorization aplica herramientas de procesamiento del lenguaje natural y técnicas lingüísticas avanzadas para categorizar automáticamente contenido multilingüístico. Hace análisis sintáctico y de contenido para determinar entidades, hechos y sucesos, creando metadatos, desarrollando taxonomías y generando reglas categoriales y definiciones de conceptos que aplica a grandes volúmenes de documentos para disparar procesos de negocios.
  • SAS Sentiment Analysis deriva opiniones y evaluaciones positivas y negativas, y actitudes a partir de fuentes de contenido digital de clientes y prospectos. Las fuentes digitales incluyen blogs, tweets y sitios de Internet, además de e-mails internos, notas de call centers y consultas.
  • SAS Text Miner incorpora técnicas lingüísticas avanzadas a la solución nuclear de data mining de SAS, el  SAS Enterprise Miner™. Al consolidar el análisis de datos estructurados con el análisis de texto no estructurado proporciona una mayor comprensión y profundidad en la modelización predictiva. La automatización de la exploración manual de texto, la incorporación de reporting interactivo con capacidad de drill-down y la utilización de algoritmos rigurosos de análisis ayudan a las organizaciones a detectar tendencias futuras y actual sobre nuevas oportunidades de manera más eficiente y con menor riesgo.
  • SAS Ontology Management crea y mantiene metadatos consistentes y centralizados a través de colecciones de documentos y repositorios de texto, para que los motores de búsqueda y recuperación textual puedan identificar sistemáticamente los conceptos comunes. Esto proporciona respuestas significativas a preguntas complejas, aun cuando las respuestas no se encuentren explícitamente formuladas en el texto.

Estas herramientas son parte del SAS Business Analytics Framework, Una de las aplicaciones recientes de esta suite de herramientas ha sido, junto con la solución de Social Network Analysis, en el combate contra el fraude, particularmente contra el "phishing".

SAS Enterprise Miner 6.2 incluye algunas de estas herramientas de text analytics en una nueva solapa de herramientas (si se adquiere la licencia correspondiente) . En ella pueden encontrarse actualmente los nodos de Text Topic (para descubrir el tópico de un conjunto de textos, algo muy útil para enriquecer los modelos predictivos tradicionales), Text Parsing (para reconocer la estructura lingüistica de un conjunto de textos, un paso importante para encontrar cuáles son sus tópicos), Text Miner (el mismo nodo que existía en versiones previas del Enterprise Miner, aunque con funciones mejoradas considerablemente a partir de la contribución de las tecnologías de Teragram) y Text Filter (para filtrar con criterios lingüísticos un conjunto de textos).

Figura 2 - Solapa de text analytics en SAS Enterprise Miner 6.2.

Figura 2 - Solapa de text analytics en SAS Enterprise Miner 6.2.

 

En cuanto a las redes sociales, SAS introdujo tres nuevos componentes: SAS Network Visualization Workshop, Proc Optgraph y SAS Social Network Analysis.

  • SAS Network Visualization Workshop: aplicación gráfica interactiva basada en Windows para visualizar e investigar datos que involucran grafos. Usa una combinación de tablas, gráficos estadísticos y redes para visualizar y filtrar datos con el fin de descubrir relaciones ocultas.
  • Proc Optgraph: Conjunto de algoritmos para resolver problemas de teoría de grafos, de flujos en redes y de optimización combinatoria. Incluido en el producto SAS Social Network Analysis, pero utilizable vía código SAS, sin necesidad de interfase gráfica.
  • SAS Social Network Analysis: Componente de análisis de redes sociales que incluye un servidor que implementa algoritmos de representación y exploración de grafos y una interfase gráfica que permite explorar interactivamente un grafo, usando distintas herramientas, alertas, estrategias y métricas para descubrir y monitorear fenómenos en redes sociales.

Figura 3 - NV Workshop.

Figura 3 - NV Workshop.
 
Figura 4 - Representación esquemática de un fragmento de una red social usando SAS SNA.
 
Figura 4 - Representación esquemática de un fragmento de una red social usando SAS SNA.
 
 

Cursos de capacitación

SAS Educación ofrece diversos cursos de capacitación sobre estos temas y la utilización de las herramientas de SAS. Algunos de estos cursos se encuentran incluidos en las carreras de especialización a las que incumben estos temas. Puede encontrar de interés los siguientes cursos:

Acerca de SAS

SAS es una empresa líder en soluciones y servicios de Business Analytics y el mayor proveedor independiente de Business Intelligence del mercado. Con innovadoras aplicaciones, apoyadas por una plataforma de inteligencia empresarial, SAS ayuda a que 45,000 sitios mejoren su desempeño y brinden valor para tomar decisiones de negocio más acertadas con mayor velocidad. Desde 1976, SAS otorga a sus clientes alrededor del mundo THE POWER TO KNOW®.

Más Notas

Copyright © SAS Institute Inc. All Rights Reserved.

Contacto Editorial:

  • SAS Argentina | Educación

    Argentina: José Alvarez
    e-mail: jose.alvarez@sas.com
    Tel.: (54-11) 4878-4500