Noticias / Notas de Prensa

SAS INSTITUTE ARGENTINA SA.
Alicia Moreau de Justo 550, 2º G
(C1107AAL) Ciudad Autónoma de Buenos Aires
Tel:(+54-11)-4878-4500
Fax: (+54-11)4878-4509
E-mail: informes@sas.com

Press Release

Versión para imprimir Versión para imprimir

Noticias

 

¿Qué es SAS/STAT y por qué debe aprender a usarlo?  | SAS EDUCACIÓN ARGENTINA

Buenos Aires, Argentina  (18 Jul. 2011)  – ¿Trabaja en Data Mining, investigación de mercado, control de calidad, u otras tantas tareas que requieren de la utilización de técnicas estadísticas? ¿Recuerda todavía los principios y técnicas estadísticas básicas en las que se basa su tarea actual? ¿Desde que aprendió estadística en la universidad, volvió sobre el tema para actualizarse sobre los nuevos enfoques, herramientas y conceptos? Seguramente, usted usa alguna herramienta o componente de SAS, pero, ¿se detuvo alguna vez a considerar qué le ofrece uno de los paquetes más importantes, SAS/STAT?

La estadística es una herramienta indispensable en el mundo productivo actual. La necesidad de tener conocimientos estadísticos teóricos y prácticos es ineludible en casi cualquier profesión en el mundo moderno. También lo es la necesidad de mantener esos conocimientos vivos y actualizados. La estadística ha tenido una considerable evolución y diversificación en las últimas décadas, no solo conceptualmente sino también instrumentalmente, gracias al desarrollo de nuevas técnicas de cálculo y su implementación en programas especializados. Muchos de estos desarrollos se plasman en componentes de software como las herramientas de data mining, las cadenas markovianas, las técnicas de graficación interactiva, nuevas técnicas estadísticas de regresión (generalizadas, robustas, etc.), implementaciones de técnicas estadísticas inferenciales en un enfoque bayesiano y tantos otros.

Para poder mantenerse al tanto de los avances en la estadística y estar en condiciones de usar aquellos relevantes a sus propias tareas es importante que posea una base estadística sólida que le permita comprender las extensiones y aplicaciones de los conceptos y herramientas básicas, la complementación apropiada entre los métodos más antiguos y los más modernos, cuándo aplicarlos y de qué manera, cuáles son sus ventajas y desventajas, y, especialmente, sus alcances y limitaciones. Para que todo lo anterior pueda tener consecuencias prácticas en su trabajo, es fundamental también que comprenda claramente la implementación de estos conceptos y técnicas en un software, uno como SAS/STAT.

Qué es SAS/STAT (y componentes vinculados)

SAS/STAT le proporciona un conjunto amplio de herramientas estadísticas para una gran variedad de análisis estadísticos, incluyendo análisis de varianza, análisis de datos categóricos, análisis de clustering, imputación múltiple, análisis multivariado, análisis no paramétrico, cálculos de potencia y tamaño muestral, análisis psicométrico, regresión, análisis de encuestas y análisis de supervivencia. Algunos ejemplos incluyen modelos mixtos no lineales, modelos lineales generalizados, análisis de correspondencias y regresión robusta. El software es actualizado constantemente para que refleje las nuevas metodologías y concepciones. Con más de sesenta y tantos procedimientos, cada uno una verdadera biblioteca de funciones estadísticas, SAS/STAT incluye también una interfase gráfica para las técnicas más comunes de investigación de mercado (Market Research Application - MRA), la interfase Analyst Application para acceder convenientemente a algunos de los análisis estadísticos más comunes como análisis de varianza, regresión, regresión logística, modelos mixtos, análisis de supervivencia y algunas técnicas multivariadas, y una interfase para especificar cálculos de potencia y tamaño muestral, Power and Sample Size Application (PSS).

Es importante notar que SAS/STAT debe o puede complementarse con otros componentes de SAS que cualquier usuario experto no debiera ignorar. En particular:

  • SAS Base. 
    Muchas de las capacidades de manejo de datos y generación de reportes que necesitará son, muy probablemente, parte de SAS Base. Los componentes principales de SAS Base son el Data Step (herramienta principal para leer y procesar datos en el sistema de SAS. Constituye un lenguaje de programación muy potente y de propósito general) y Procedimientos de SAS  Base (bibliotecas especializadas en distinto tipo de tareas de manipulación y análisis de datos). Los procs de SAS Base incluyen algunos procedimientos estadísticos básicos: PROC CORR (para el cálculo de correlaciones), PROC RANK (para cálculo de rankings y estadísticos de orden), PROC STANDARD (para estandarizar variables), PROC MEANS (para calcular estadísticos descriptivos y sumarizar o colapsar datos a través de secciones), PROC TABULATE (para presentar estadísticos descriptivos en un formato tabular) y PROC UNIVARIATE (para calcular estadísticos descriptivos).

  • SAS/ETS.
    Provee procedimientos para análisis econométricos y de series de tiempo. Posee su propia interfase para realizar modelización interactiva de series temporales (Time Series Forecasting System - TSFS)

  • SAS/GRAPH.
    Incluye procedimientos que crean gráficos en dos y tres dimensiones. SAS/GRAPH es necesario cuando se utilizan funciones de ODS Graphics en otros productos de SAS, incluyendo SAS/STAT.  A partir de SAS 9.2, SAS/GRAPH incluye una nueva familia de procedimientos para crear gráficos estadísticos "stand-alone". Estos incluyen los procedimientos SGPLOT, SGSCATTER y SGPANEL, que proporcionan una sintaxis simple y conveniente para producir muchos tipos de gráficos. Son particularmente convenientes para explorar y presentar datos. El Graph Template Language (GTL) y el procedimiento SGRENDER ofrecen una potente sintaxis para crear gráficos personalizados. También se puede usar GTL con el fin de modificar los templates provistos para utilizar con los procedimientos de SAS/STAT. El ODS Graphics Editor le permite hacer cambios inmediatos a ODS Graphics mediante una interfase gráfica.

  • SAS/IML.
    Permite acceder a un lenguaje de programación potente y flexible (Interactive Matrix Language) en un ambiente interactivo dinámico. El objeto fundamental del lenguaje es una matriz de datos. Se puede usar SAS/IML interactivamente (en el nivel de la sentencia) para ver resultados inmediatamente, o se puede almacenar sentencias en un módulo y ejecutarlos posteriormente. La programación es dinámica porque las actividades necesarias, como la asignación de memoria y el dimensionamiento de matrices,  se hacen automáticamente. SAS/IML es de interés para los usuarios de SAS/STAT porque les permite programar métodos multivariados complejos que típicamente emplean cálculo matricial.

  • SAS/INSIGHT.
    Es una herramienta altamente interactiva para realizar análisis de datos. Permite explorar los datos mediante una variedad de gráficos interactivos incluyendo gráficos de barras, de dispersión, de cajas y gráficos tridimensionales que pueden rotarse. Se pueden examinar distribuciones y realizar regresiones paramétricas y no paramétricas, analizar modelos lineales generales y modelos lineales generalizados, examinar matrices de correlaciones y realizar análisis de componentes principales. Los cambios hechos a los datos pueden verse inmediatamente en todos los gráficos y análisis. SAS/INSIGHT es de interés para los usuarios de SAS/STAT que desean ver gráficamente los datos de una forma interactiva, editarlos, realizar análisis exploratorio de datos y verificar supuestos distribucionales.

  • SAS/OR.
    Proporciona procedimientos para tareas de investigación operativa y planificación de proyectos. Incluye una interfase gráfica para el gerenciamiento de proyectos. Permite resolver problemas de transporte, programación lineal, entera y entera mixta, programación no lineal, proyectos de scheduling, realizar gráficos de Gantt y diagramas de redes, resolver problemas de asignación óptima, programación de flujos en redes. SAS/OR puede ser de interés a los usuarios de SAS/STAT por sus características de programación matemática. En particular, el procedimiento NLP resuelve problemas de programación no lineal y puede usarse para maximización constreñida o no constreñida de funciones de verosimilitud definidas por el usuario.

  • SAS/QC.
    Provee una variedad de procedimientos para control estadístico y mejoramiento de la calidad. Incluye procedimientos para generar gráficos de control de Shewhart, gráficos de control acumulativos, gráficos de control de media móvil, análisis de capacidades de procesos, diagramas de Ishikawa, gráficos de Pareto y diseño experimental. También incluye una interfase, ADX, para diseño experimental.

  • SAS/IML Studio.
    Es una herramienta para la exploración y el análisis de datos. Proporciona un ambiente de programación muy flexible dentro del cual se pueden ejecutar análisis de SAS/STAT o de SAS/IML y mostrar los resultados con gráficos y tablas vinculados dinámicamente. El lenguaje de programación en SAS/IML Studio se denomina IMLPlus, y es una versión ampliada de SAS/IML. Permite transferir datos entre tablas y matrices SAS y data frames y matrices de R. 

 

Modelización con SAS/STAT

La mayoría de los procedimientos de SAS/STAT están dedicados a la tarea de modelización estadística.  Es difícil poder capturar  toda la complejidad de los modelos estadísticos en un esquema simple, de modo que cualquier clasificación que hagamos será necesariamente incompleta. Usaremos criterios simples como la presencia de efectos aleatorios,  de relaciones no lineales, características de los datos, etc. para clasificar distintos tipos de modelos y relacionarlos con las herramientas de SAS/STAT.

  • Modelos determinísticos y estocásticos. 
    Los modelos puramente matemáticos en los cuales las relaciones entre las variables de entrada y salida se capturan de un modo completamente determinístico pueden ser herramientas teóricas importantes, pero son poco prácticos para describir datos observacionales, experimentales o surgidos de encuestas. Por lo general, los investigadores utilizan elementos estocásticos y determinísticos en sus modelos. Cuando la incertidumbre sobre la realización de los sucesos de interés llevan a la inclusión de componentes  aleatorios, los modelos resultantes se denominan modelos estocásticos.
    Un modelo estocástico es un modelo estadístico que contiene parámetros que son constantes no conocidas que deben estimarse a partir de supuestos sobre el modelo y los datos observados. La característica definitoria es su dependencia de parámetros y la incorporación de términos estocásticos. Las propiedades del modelo y las propiedades de las cantidades derivadas de él deben estudiarse en promedio mediante esperanzas, varianzas y covarianzas. El hecho de que los parámetros del modelo deban estimarse a partir de los datos introduce un elemento estocástico en la aplicación de un modelo estadístico: debido a que el modelo no es determinístico sino que incluye aleatoriedad, los parámetros y las cantidades relacionadas derivadas del modelo son también aleatorios. Las propiedades de los estimadores de los parámetros puede frecuentemente describirse en un sentido asintótico, imaginando que algún aspecto de los datos se incrementa ilimitadamente (por ejemplo, el número de observaciones o el número de grupos). El proceso de estimación de parámetros en un modelo estadístico en base a los datos se llama ajuste del modelo.
    Para muchas clases de modelos estadísticos existe un número de procedimientos de SAS/STAT que puede realizar el ajuste. En muchos casos, diferentes procedimientos resuelven problemas idénticos de estimación, es decir, las estimaciones de parámetros son idénticas. En algunos casos, los mismos parámetros del modelo pueden estimarse mediante diferentes principios estadísticos, como la estimación por cuadrados mínimos versus máxima verosimilitud. Las estimaciones de parámetros obtenidas mediante métodos diferentes típicamente tienen distintas propiedades estadísticas (distribución, varianza,  sesgo, etc.).  La elección entre principios de estimación competidores suele hacerse sobre la base de propiedades de los estimadores. Las propiedades distintivas podrían incluir (aunque no están limitadas a) la facilidad computacional, la facilidad de interpretación, sesgo, varianza, error cuadrático medio y consistencia.

  • Aleatoriedad basada en el modelo y en el diseño. 
    Un modelo estadístico es una descripción del mecanismo  generador de datos, no una descripción de los datos específicos a los que se aplica. El objetivo de un modelo es capturar aquellos aspectos de un fenómeno que son relevantes a una investigación y explican cómo podrían haber ocurrido los datos como realización de un experimento aleatorio. Estos aspectos relevantes podrían incluir la génesis de la aleatoriedad y los efectos estocásticos en el fenómeno bajo estudio. Diferentes escuelas de pensamiento pueden llevar a diferentes formulaciones de modelos, diferentes estrategias analíticas y diferentes resultados.
    En términos generales, se puede distinguir entre un punto de vista de aleatoriedad "innata" y uno de aleatoriedad inducida. Esta distinción lleva a dos enfoques distintos sobre la inferencia: basada en modelos y basada en el diseño. En una concepción de inferencia basada en el diseño, la variación aleatoria en los datos observados es inducida por una selección o asignación aleatoria. Esto tiene diversas consecuencias. Es frecuente utilizar modelos estadístico dentro de una concepción basada en el diseño. En un marco puramente basado en modelos, la única fuente de variación aleatoria para la inferencia proviene de la variación desconocida en las respuestas. Una concepción basada en modelos no implica que haya una sola fuente de variación aleatoria en los datos.
    Un enfoque basado en el diseño se encuentra implícito en procedimientos de SAS/STAT cuyos nombres comienzan por SURVEY, por ejemplo, los procedimientos SURVEYFREQ, SURVEYMEANS, SURVEYREG, and SURVEYLOGISTIC. Los otros procedimientos de SAS/STAT se basan en enfoques inferenciales basados en modelos.

  • Especificación del modelo.
    Si se concibe un modelo como una descripción del mecanismo generador de los datos, entonces sus parámetros se estiman mediante los datos disponibles. Una vez que se cuenta con estimaciones de los parámetros, se puede aplicar el modelo para responder preguntas de interés sobre la población en estudio. En otras palabras, el modelo se vuelve la lente a través de la cual se observa el problema, para hacer preguntas de interés y responderlas. Por ejemplo, se podría usar el modelo estimado para derivar nuevas predicciones, verificar hipótesis, derivar intervalos de confianza, etc. Obviamente, el modelo debe ser "correcto" en el sentido de que describa de modo suficiente el mecanismo generador de datos. La selección de modelos, el diagnóstico y la discriminación son pasos importantes en el proceso de generación de modelos. Típicamente se trata de un proceso iterativo que parte de un modelo inicial y luego se lo refina.
    El primer paso importante es, entonces, formular el conocimiento disponible sobre el proceso generador de datos y expresar el fenómeno real observado en términos de un modelo estadístico. Un modelo estadístico describe las propiedades distribucionales de una o más variables, las variables de respuesta. La extensión de la especificación distribucional requerida depende del  modelo, de la técnica de estimación y de las metas inferenciales. Esta descripción suele tomar la forma simple de un modelo con una estructura aditiva del error. Pero, en muchas aplicaciones, un modelo simple de esta clase es inadecuado. Podría ser necesario especificar no solo las propiedades estocásticas de un solo término de error, sino también cómo los errores asociados a diferentes observaciones se relacionan entre sí. Un modelo simple de error aditivo es típicamente inapropiado para describir el mecanismo generador de datos si los errores no tienen una media de cero o si la varianza de las observaciones depende de sus medias. Modelos para estos tipos de datos requieren formulaciones más elaboradas que involucran distribuciones probabilísticas.

Clases de modelos estadísticos

Nuevamente, sin pretensiones de exhaustividad, podemos clasificar diferentes tipos de modelos estadísticos para comprender cuál es su implementación en SAS/STAT.

  • Modelos lineales y no lineales.
    Un problema de estimación estadístico es no lineal si las ecuaciones de estimación, las ecuaciones cuya solución produce las estimaciones de los parámetros, dependen de los parámetros de un modo no lineal. Problemas de estimación de este tipo típicamente no tienen una solución de forma cerrada y deben resolverse mediante técnicas numéricas iterativas. Es frecuente usar la no linealidad en la función media para distinguir entre modelos lineales y no lineales. Un modelo tiene una función media no lineal si su derivada respecto de los parámetros depende de al menos algún otro parámetro. Funciones medias no lineales llevan a estimaciones no lineales. Sin embargo, es importante notar que pueden surgir también estimaciones no lineales debido al principio de estimación o debido a que la estructura del modelo contiene no linealidades en otras partes, como en la estructura de covarianza. Por ejemplo, el ajuste de un modelo de regresión simple que minimiza la suma de los residuos absolutos lleva a un problema de estimación no lineal a pesar del hecho de que la función media es lineal. Como veremos, SAS/STAT contiene numerosos procedimientos para una y otra clase de modelos.

  • Modelos de regresión y modelos con efectos de clasificación. 
    Un modelo de regresión en el sentido estricto de la palabra - en comparación con un modelo de clasificación - es un modelo lineal en el que todos los efectos son variables continuas. Es decir, cada efecto en el modelo contribuye una sola columna a la matriz X y un solo parámetro al modelo. Un efecto de clasificación, por otro lado, está asociado a más de una columna de la matriz X. La clasificación respecto de una variable es el proceso por el cual cada observación está asociada con uno de k niveles; el proceso de determinar estos k niveles suele denominarse "nivelación" o "parametrización" de la variable. Las variables de clasificación se usan en modelos para identificar condiciones experimentales, pertenencia a grupos, tratamientos, etc. Los valores concretos de la variable de clasificación no son importantes y la variable puede ser numérica o de caracteres. Lo que es importante es la asociación de valores discretos o niveles de la variable de clasificación con grupos de observaciones.
    Existen varios métodos de parametrización disponibles en los procedimientos de SAS/STAT, en particular en los procs GLM, MIXED, GLIMMIX, GENMOD y LOGISTIC, con algunas diferencias entre ellos en este respecto.
    Los modelos que contienen solo efectos de clasificación se los suele identificar con el análisis de varianza (ANOVA). Sin embargo, los efectos de clasificación aparecen en forma más amplia que solo en los modelos a los que se aplica análisis de varianza. Por ejemplo, muchos modelos mixtos donde los parámetros se estiman mediante funciones de máxima verosimilitud restringidas, consisten enteramente de efectos de clasificación, pero no permiten la descomposición de suma de cuadrados típicas de las técnicas ANOVA. Muchos modelos contienen efectos continuos y de clasificación. Por ejemplo, un efecto "continuo por clase" consiste de al menos una variable continua y por lo menos una variable de clasificación. Estos efectos son convenientes para variar las pendientes en un modelo de regresión según los niveles de una variable de clasificación. También, recientes ampliaciones en la sintaxis de los modelos lineales en algunos procedimientos de SAS/STAT, como GLIMMIX y GLMSELECT, permiten construir conjuntos de columnas en la matriz X a partir de una sola variable continua. Un ejemplo es la modelización con splines, donde los valores de una variable continua se expanden en una base de splines que ocupa varias columnas en la matriz X.
    Dentro de los procedimientos que realizan análisis de varianza, el que posee un conjunto más extenso de capacidades para modelos de regresión lineal con variables numéricas independientes es PROC REG. Muchos otros procedimientos pueden ajustar estos modelos, pero están diseñados para modelos más generales como regresión robusta, regresión lineal generalizada, regresión no lineal, regresión no paramétrica, modelización por regresión de datos de encuestas, modelización por regresión de datos de supervivencia, etc. Los principales procedimientos son CATMOD, GAM, GENMOD, GLIMMIX, GLM, LIFEREG, LOESS, LOGISTIC, MIXED, NLIN, NLMIXED, ORTHOREG, PHREG, PLS, PROBIT, REG, ROBUSTREG, RSREG, SURVEYLOGISTIC, SURVEYPHREG, SURVEYREG, y TRANSREG.
    Hay que hacer notar también que el término "análisis de varianza" se usa en una variedad de sentidos en las teorías y aplicaciones estadísticas. En el sentido más estrecho (y el original, usado por R. A. Fisher), significa una descomposición de una varianza en componentes contribuyentes. En este sentido del término, los procedimientos de SAS/STAT que ajustan modelos de componentes de varianza, como GLIMMIX, HPMIXED, MIXED, NESTED, y VARCOMP son "verdaderos" procedimientos de análisis de varianza.
    En un sentido un poco más amplio, y el más frecuente hoy en día, el análisis de varianza aplica la idea de una descomposición aditiva de la varianza a una descomposición aditiva de la suma de cuadrados, cuyos valores esperados están funcionalmente relacionados con componentes de variación. Una colección de sumas de cuadrados que miden y pueden usarse para inferencias sobre las características significativas de un modelo se denomina "análisis de varianza de suma de cuadrados", sea aditiva o no la descomposición. En un modelo lineal, la descomposición de sumas de cuadrados puede expresarse en términos de proyecciones sobre subespacios ortogonales generados por las columnas de la matriz de diseño X. La aplicación del análisis de suma de cuadrados no se limita necesariamente a modelos con efectos de clasificación (factores). La metodología se aplica también a modelos de regresión lineal que contienen solo predictores continuos.
    En un sentido aun más amplio del término, "análisis de varianza" se aplica a modelos estadísticos que contienen efectos de clasificación (factores) y, en particular, a modelos que contienen solo efectos de clasificación. Cualquier enfoque estadístico que mida características de un modelo de este tipo y puede usarse para inferencia se denomina "análisis general de varianza". Los procedimientos para análisis general de varianza en SAS/STAT se considera que son aquellos que ajustan modelos estadísticos que contienen factores, sean los datos experimentales u observacionales. Este enfoque del análisis de varianza incluye, por ejemplo, la estimación de máxima verosimilitud en modelos lineales generalizados con el procedimiento GENMOD, la estimación de máxima verosimilitud restringida en modelos lineales mixtos con el procedimiento MIXED, la estimación de componentes de varianza con el procedimiento VARCOMP, la comparación de medias de grupos con el procedimiento TTEST y el análisis no paramétrico de rangos con el procedimiento NPAR1WAY, entre otros.
    El procedimiento principal de SAS/STAT para modelos lineales mediante las técnicas de análisis de suma de cuadrados es GLM. Este procedimiento resuelve la mayoría de los problemas estándar de análisis de varianza. Otros procedimientos para situaciones más especializadas son: ANOVA, LATTICE, MIXED, ORTHOREG, VARCOMP y TRANSREG. Muchos procedimientos en SAS/STAT permiten incorporar efectos de clasificación en un modelo y realizar inferencias estadísticas para factores experimentales y sus interacciones. Estos procedimientos no usan necesariamente la descomposición de suma de cuadrados para realizar estas inferencias: CATMOD, GENMOD, GLIMMIX, LOGISTIC, NPAR1WAY y TTEST.

  • Modelos univariados y multivariados.
    Un modelo estadístico multivariado es un modelo en el cual varias variables de respuesta se modelizan en forma conjunta. Los datos multivariados pueden clasificarse en tres tipos. Los vectores de respuesta de datos multivariados homogéneos consisten de observaciones del mismo atributo. Estos datos son comunes en experimentos de mediciones repetidas y estudios longitudinales, donde el mismo atributo se mide repetidamente en el tiempo. Datos multivariados homogéneos surgen también en estadística espacial donde un conjunto de datos geoestadísticos son las observaciones incompletas de una sola realización de un experimento aleatorio que genera una superficie bidimensional. Las observaciones multivariadas heterogéneas surgen cuando las respuestas que se modelizan en forma conjunta refieren a atributos diferentes. Existen dos subtipos importantes de datos de esta clase. En los datos multivariados homocatanómicos las observaciones provienen de la misma familia distribucional. En los datos multivariados heterocatanímicos las observaciones pueden provenir de familias distribucionales diferentes.
     
  • Modelos de efectos fijos, aleatorios y mixtos.
    Cada término en un modelo estadístico representa un efecto fijo o un efecto aleatorio. Los modelos en los que todos los efectos son fijos se llaman modelos de efectos fijos. Los modelos en los que todos los efectos son aleatorios - aparte de, posiblemente, un término de intersección - se llaman modelos de efectos aleatorios. Los modelos mixtos son entonces los que tienen términos de efectos fijos y otros de efectos aleatorios. Los procedimientos de modelización mixta en SAS/STAT suponen que los efectos aleatorios siguen una distribución normal y en la mayoría de los casos que los efectos aleatorios tienen una media cero. Los efectos aleatorios están frecuentemente asociados con efectos de clasificación, aunque esto no es necesario. Los siguientes procedimientos de SAS/STAT pueden realizar análisis de efectos mixtos o aleatorios en diversos grados: GLM, GLIMMIX, HPMIXED, LATTICE, MIXED, NESTED, NLMIXED y VARCOMP.

  • Modelos lineales generalizados.
    Una clase de modelos que ha adquirido importancia creciente en las últimas décadas es la clase de modelos lineales generalizados. Esta clase de modelos extiende la teoría y métodos de los modelos lineales a datos con variables de respuesta no normales. Antes de que esta teoría hubiera sido desarrollada, la modelización de datos no normales típicamente se basaba en transformaciones de los datos que mejoran la simetría, homogeneidad de varianza o normalidad de la distribución de los datos. Estas transformaciones deben aplicarse con cuidado porque también tienen implicaciones sobre la estructura de errores del modelo. La aplicación de las transformaciones inversas sobre las estimaciones o valores predichos pueden introducir sesgos.
     Los modelos lineales generalizados también aplican una transformación, conocida como función en enlace (link), pero se aplica sobre un componente determinístico, la media de los datos. Además, los modelos lineales generalizados toman en cuenta la distribución de los datos, en lugar de suponer que una transformación lleva a datos con una distribución normal a la que pueden aplicarse técnicas de modelización lineal estándar. El modelo lineal estándar con errores normalmente distribuidos es un caso especial de un modelo lineal generalizado; la función de enlace es la función identidad y la distribución es la normal.

  • Modelos de variables latentes.
    La modelización de variables latentes involucra variables que no se observan directamente. Las variables latentes están involucradas en casi todos los tipos de modelos de regresión. En un sentido amplio, todos los términos aditivos de error en los modelos de regresión son variables latentes, simplemente porque no se miden en forma directa. De todas maneras, usualmente se usa un sentido más estrecho del término " variables latentes".  Se suele entender por variables latentes o factores a las variables sistemáticas no medidas. Para modelizar factores latentes, algunas variables observadas deben ser relacionadas con estos factores. Para esto, debemos generar modelos de medición de los factores latentes.
    La modelización con factores latentes es bastante común en las ciencias sociales y de la conducta y en investigaciones de mercado. Los "constructos" hipotéticos, aunque no observables, son muy importantes para la construcción de teorías en estas áreas. Otro uso de los factores latentes en la modelización es el de "purificar" los predictores en un análisis de regresión. Recuérdese que un supuesto común en los modelos de regresión (muchas veces incumplido) es que los predictores fueron medidos sin error.
    La modelización de ecuaciones estructurales incluye el análisis de estructuras de covarianza y estructuras de medias, ajuste de sistemas de ecuaciones estructurales lineales, análisis factorial y análisis de caminos (path analysis). En términos de las técnicas matemáticas y estadísticas involucradas, estos diversos tipos de análisis son más o menos intercambiables porque la metodología subyacente se basa en el análsisis de las estructuras de medias y covarianzas. Sin embargo, los diferentes tipos de análisis enfatizan diferentes aspectos del análisis. El análisis de estructuras de covarianza refiere a la formulación de un modelo para las varianzas y covarianzas observadas entre un conjunto de variables. El modelo expresa las varianzas y covarianzas como funciones de algunos parámetros básicos. De modo similar, el análisis de estructuras de medias hace referencia a la formulación de un modelo para las medias observadas. El modelo expresa las medias como funciones de algunos parámetros básicos. Usualmente las estructuras de covarianzas son el interés principal. Sin embargo, a veces se analizan simultáneamente las estructuras de medias junto con las estructuras de covarianza en un modelo.
    También existen otros tipos genéricos de modelizaciones de ecuaciones estructurales que enfatizan más las relaciones funcionales entre las variables. Cuando todas las variables observadas en el modelo se supone que son medidas indicadoras de factores latentes subyacentes y el interés principal es estudiar las relaciones estructurales entre los factores latentes, ese es un escenario de modelización para el análisis factorial o para el método LISREL. PROC CALIS provee dos lenguajes de modelización estrechamente relacionados con este tipo de escenario de modelización: FACTOR y LISMOD. Cuando se suponen relaciones causales entre las variables observadas y latentes, este es un escenario de modelización para el análisis de caminos (path analysis).  Según el modo de representar el diagrama de caminos, se pueden usar tres lenguajes de modelización diferentes en PROC CALIS: PATH, RAM y LINEQS. Otros procedimientos comparables en algunos respectos a PROC CALIS son FACTOR y SYSLIN.

  • Modelos bayesianos. 
    Los modelos estadísticos basados en el paradigma clásico (o frecuencialista) tratan los parámetros de un modelo como constantes fijas aunque desconocidas. No son variables aleatorias y la noción de probabilidad se deriva en un sentido objetivo como una frecuencia relativa llevada al límite.  El paradigma bayesiano adopta un enfoque diferente. Los parámetros de un modelo son variables aleatorias y la probabilidad de un evento se define en un sentido subjetivo como el grado en el que se puede creer que el evento es verdadero. Esta diferencia filosófica fundamental lleva a profundas diferencias en el contenido estadístico de las estimaciones e inferencias.
    En el marco frecuencialista, se usan los datos para estimar mejor el valor desconocido de un parámetro; se trata de identificar un valor en el espacio de parámetros tan bien como sea posible. En la concepción bayesiana, se usan los datos para actualizar las creencias sobre la conducta del parámetro para evaluar sus propiedades distribucionales tan bien como sea posible.
    En teoría, los métodos bayesianos ofrecen una alternativa simple a la inferencia estadística: todas las inferencias se obtienen de la distribución "posterior". Sin embargo, en la práctica, solo los problemas más elementales permiten obtener analíticamente una distribución posterior. La mayoría de los análisis bayesianos requieren cálculos sofisticados que incluyen métodos de simulación. Se generan muestras de la distribución posterior y se usan estas muestras para estimar las cantidades de interés.
    Ambos métodos (clásico y bayesiano) tienen ventajas y desventajas. La elección de un método depende de los objetivos del análisis de datos. Si hay disponible información previa, tal como opiniones expertas o conocimiento histórico, y se quiere incorporar esta información en el análisis, entonces sería bueno recurrir a los métodos bayesianos. Si se quiere comunicar los resultados en términos de nociones probabilísticas que puedan ser más fácilmente comprensibles por no estadísticos, los métodos bayesianos también podrían ser apropiados. El paradigma bayesiano puede proporcionar un marco general para responder preguntas científicas específicas para las que una estimación puntual aislada podría ser insuficiente. Por otro lado, si se está interesado en estimar parámetros y en formular inferencias basadas en propiedades de los estimadores de parámetros, no hay necesidad de usar un análisis bayesiano. Cuando la muestra es grande, la inferencia bayesiana suele producir resultados para modelos paramétricos que son muy similares a los resultados producidos por los metodos clásicos frecuencialistas.
    SAS/STAT provee capacidades bayesianas  en cuatro procedimientos: GENMOD, LIFEREG, MCMC y PHREG. Los procs GENMOD, LIFEREG y PHREG ofrecen análisis bayesiano además de los análisis frecuencialistas  estándar que siempre han hecho (el agregado del análisis bayesiano es más reciente). Estos procedimientos permiten un acceso conveniente a la modelización e inferencias bayesianas para los modelos lineales generalizados, modelos de supervivencia, modelos de regresión de Cox y modelos de riesgo basal constante de a trozos (también conocidos como modelos exponenciales de a trozos). El procedimiento MCMC es un procedimiento general que ajusta modelos bayesianos con probabilidades previas y funciones de verosimilitud arbitrarias.


Si cree que toda la explicación anterior anterior es demasiado extensa y compleja, tenga en cuenta que solo es la punta del iceberg. Si recorre las, nada menos que, 8460 páginas del manual de usuario de SAS/STAT podrá ver que solo hemos hecho una pequeña muestra de las herramientas disponibles en SAS/STAT. No hemos  mencionado ni los principales procedimientos para análisis de datos categóricos, ni diversos procedimientos multivariados útiles en diferentes situaciones, ni los procedimientos de análisis discriminante, ni los procedimientos de clustering, ni los de scoring, estandarización y ranking, ni los de supervivencia o los procedimientos de muestreo y análisis de encuestas. Tampoco hicimos hincapié en un sistema muy potente de manejo de gráficos (ODS Graphics) y tablas (ODS Tables).


¿Por qué aprender a usar SAS/STAT?

SAS/STAT es la base de muchos componentes estadísticos de SAS, así como SAS BASE es el sustento de SAS/STAT. Como se vio más arriba, SAS/STAT es un componentes de software sumamente rico, con años de desarrollo, mejoramiento, extensión, etc. Si usted es usuario de SAS/STAT, pero no comprendió cabalmente, la descripción hecha más arriba, es probable que carezca de los conocimientos o de la actualización de los mismos necesarios para poder utilizar SAS/STAT en toda su riqueza. Es decir, es muy posible que esté subutilizando considerablemente las herramientas de las que dispone. Si usted es usuario de unos pocos procedimientos de SAS/STAT (por ejemplo, PROC GENMOD) y no tiene idea o tiene una idea insuficiente de los otros componentes de SAS/STAT, es muy probable que esté subutilizando o usando inapropiadamente los procedimientos que emplea. Para seguir con el ejemplo de los modelos lineales generalizados, si usted no conoce las complementariedades entre PROC GENMOD y PROC UNIVARIATE, PROC STDIZE, PROC REG y otros, es probable que esté aplicando GENMOD de un modo que podría ir desde una subutilización hasta un uso incorrecto, inválido o por lo menos problemático de dicho procedimiento.

Si usted es usuario de herramientas estadísticas especializadas como pueden ser Enterprise Miner, SAS/ETS o SAS/QC, y piensa que puede prescindir de conocer SAS/STAT, sus fundamentos, componentes y utilización, se equivoca totalmente. La idea de estos componentes especializados es la de permitir que realice tareas específicas de un modo más eficiente, pero no evitan que usted deba dominar las bases conceptuales y prácticas de otros componentes o herramientas estadísticas y comprender la complementariedad que existe entre ellos. Los botones, nodos, automatizaciones y defaults le permiten trabajar más rápido y concentrarse en el problema que desea analizar, pero no garantizan ni favorecen que lo que hace tenga sentido, sea correcto, válido o apropiado. Si quiere asegurarse de estas últimas cosas, recurra a las fuentes. Y estas son, sin duda,  los conceptos, recursos y herramientas de SAS/STAT. En síntesis, si usted desea hacer un uso eficaz de cualquiera sea la herramienta o componente estadístico de SAS, aprenda a usar SAS/STAT.

Puede encontrar un conjunto completo de cursos para utilizar las herramientas de SAS/STAT en los cursos descriptos en el perfil de Analista Estadístico y también en nuestra Carrera de especialización SAS: Analista de Estadística.

 

Acerca de SAS

SAS es una empresa líder en soluciones y servicios de Business Analytics y el mayor proveedor independiente de Business Intelligence del mercado. Con innovadoras aplicaciones, apoyadas por una plataforma de inteligencia empresarial, SAS ayuda a que 45,000 sitios mejoren su desempeño y brinden valor para tomar decisiones de negocio más acertadas con mayor velocidad. Desde 1976, SAS otorga a sus clientes alrededor del mundo THE POWER TO KNOW®.

Más Notas

Copyright © SAS Institute Inc. All Rights Reserved.

Contacto Editorial: