SAS Visual Statistics 功能列表

可视化数据探索和发现(通过 SAS Visual Analytics 提供)

可视化数据探索和发现(通过 SAS Visual Analytics 提供)

  • 快速解释影响大型数据集建模结果的复杂关系或关键变量。
  • 过滤观察结果,了解变量对整体模型提升的影响程度。
  • 检测异常值和/或影响点,帮助用户进行确定和捕获,并从下游分析(例如模型)中将其删除。
  • 使用柱状图、直方图、箱形图、热图、气泡图、地理图等图形了解数据。
  • 推导可直接用于其他建模或可视化任务的预测结果或分段。推导结果可以保存并传递给没有建模人员和能力的部门。
  • 首次打开数据集时,将具有两个级别的度量变量自动转换为类别变量。

直观界面可利用各种分析技术

直观界面可利用各种分析技术

  • 聚类
    • K均值、k模式或k原型聚类。
    • 平行坐标图以交互方式评估聚类成员关系。
    • 散点图含有覆盖小型数据集的聚类简档,热图含有覆盖大型数据集的降类简档。
    • 详细汇总统计(每个聚类的均值,每个聚类的观察数等)。
    • 按需生成聚类ID作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
  • 决策树:
    • 支持分类树和回归树。
    • 基于修改的 C4.5 算法或成本复杂性修剪。
    • 交互式扩大和修剪树。交互式训练子树。
    • 设置树深度、最大分支、叶子大小、树枝修剪的主动性等。
    • 使用树形图显示交互浏览树结构。
    • 按需生成叶子标识、预测值和残差作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
    • 支持修剪预留数据。
    • 可以自动调整叶大小。
    • 允许手动修改交互树的分割点。
  • 线性回归:
    • 影响统计。
    • 支持向前、向后、逐步和套索变量选择。
    • 变量选择迭代图。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括总体方差分析、模型尺寸、拟合统计,模型方差分析、III型测试和参数估计。
    • 按需生成预测值和残差作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
  • 逻辑回归:
    • 含有logit和probit连接函数的二进制数据模型。
    • 影响统计。
    • 支持向前、向后、逐步和套索变量选择。
    • 变量选择迭代图。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括模型尺寸、迭代历史、拟合统计、收敛状态,III型测试,参数估计和响应曲线。
    • 按需生成预测标签和预测事件概率作为新列。调整观测标记为事件或非事件的预测截止值。
    • 支持保留数据(训练和验证)用于模型评估。
  • 广义线性模型:
    • 支持的分布包括贝塔、正态、二进制、指数、伽马、几何、泊松、Tweedie、逆高斯和负二项。
    • 支持向前、向后、逐步和套索变量选择。
    • 偏移变量支持。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括模型汇总、迭代历史、拟合统计、III型测试和参数估计。
    • 信息缺失选项支持预测变量缺失值处理。
    • 按需生成预测值和残差作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
  • 广义相加模型:
    • 支持的分布包括正态、二进制、伽马、泊松、Tweedie、逆高斯和负二项。
    • 支持一维和二维样条效果。
    • GCV、GACV和UBRE方法可选平滑效果。
    • 偏移变量支持。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括模型汇总、迭代历史、拟合统计和参数估计。
    • 支持保留数据(训练和验证)用于模型评估。
  • 非参数逻辑回归:
    • 含有logit、probit、log-log和c-log-log连接函数的二进制数据模型。
    • 支持一维和二维样条效果。
    • GCV、GACV和UBRE方法可选平滑效果。
    • 偏移变量支持。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括模型汇总、迭代历史、拟合统计和参数估计。
    • 支持保留数据(训练和验证)用于模型评估。

编程访问分析技

编程访问分析技术

  • 程序员和数据科学家可使用SAS程序(PROC)和其他任务通过SAS Studio访问SAS Viya (CAS服务器)。
  • 程序员可使用PROC CAS,或使用不同编程环境执行CAS操作,如Python、R、Lua和Java。
  • 用户也可以使用公共REST API通过自己的应用访问SAS Viya (CAS服务器)。
  • 支持本地集成Python Pandas数据帧。Python程序员可将数据帧上传CAS,然后获取CAS结果作为数据帧与其他Python包交互,如Pandas、matplotlib、Plotly、Bokeh等。
  • 包括 SAS/STAT® 和 SAS/GRAPH® 软件。
  • 主成分分析(PCA):
    • 计算主成分进行降维。
    • 支持特征值分解、NIPALS和ITERGS算法。
    • 输出观测值的主成分得分。
    • 创建碎石图和模式轮廓图。
  • 决策树:
    • 支持分类树和回归树。
    • 支持分类和数字特征。
    • 提供基于杂质和统计测试测量值拆分节点的标准。
    • 提供代价复杂度和错误率降低剪枝方法。
    • 支持数据划分为训练、验证和测试集。
    • 支持使用验证数据选择最佳子树。
    • 支持最终树模型使用测试数据进行评估。
    • 提供处理缺失值的各种方法,包括替代规则。
    • 创建树形图。
    • 提供评估模型拟合的统计数据,包括基于模型(置换)的统计数据。
    • 计算变量重要性测量值。
    • 输出叶子分配和预测观测值。
  • 聚类
    • 提供聚类连续(间隔)变量k均值算法。
    • 提供聚类名义变量k均值算法。
    • 提供各种距离相似度测量方法。
    • 提供用于估计聚类数目的等宽分箱标准方法。
    • 输出聚类成员关系和预测的距离测量值。
  • 线性回归:
    • 支持含有连续变量和分类变量的线性模型。
    • 支持各种参数化分类效果。
    • 支持任意程度交互和嵌套效果。
    • 支持多项式样条效果。
    • 支持向前、向后、逐步、最小角回归和套索选择方法。
    • 支持用于控制模型选择的信息标准和验证方法。
    • 支持各级分类效果选择。
    • 保留效果之间的层次结构。
    • 支持数据划分为训练、验证和测试集。
    • 提供各种诊断统计。
    • 生成用于生产评估的SAS代码。
  • 逻辑回归:
    • 支持二进制和二项式响应。
    • 支持各种参数化分类效果。
    • 支持任意程度交互和嵌套效果。
    • 支持多项式样条效果。
    • 支持向前、向后、快退和套索选择方法。
    • 支持用于控制模型选择的信息标准和验证方法。
    • 支持各级分类效果选择。
    • 保留效果之间的层次结构。
    • 支持数据划分为训练、验证和测试集。
    • 提供各种模型评估统计。
    • 提供各种最大似然估计优化方法。
  • 广义线性模型:
    • 支持各种分布的响应,包括二项、正态、泊松和伽马。
    • 支持各种参数化分类效果。
    • 支持任意程度交互和嵌套效果。
    • 支持多项式样条效果。
    • 支持向前、向后、快退、逐步和组套索选择方法。
    • 支持用于控制模型选择的信息标准和验证方法。
    • 支持各级分类效果选择。
    • 保留效果之间的层次结构。
    • 支持数据划分为训练、验证和测试集。
    • 提供各种模型评估统计。
    • 提供各种最大似然估计优化方法。
  • 非线性回归模型:
    • 标准或广义分布拟合非线性回归模型。
    • 计算用户提供表达式的解析偏导数,用于更稳健的参数估计。
    • 使用ESTIMATE和PREDICT语句评估用户提供的表达式(仅限程序)。
    • 如果不使用PROC NLMOD,则需要包含CMP项目保存的数据表。
    • 使用最小二乘法估计参数。
    • 使用最大似然法估计参数。
  • 分位数回归模型:
    • 支持单个或多个分位数水平的分位数回归。
    • 支持分类效果多种参数化。
    • 支持任意程度交互(交叉效果)和嵌套效果。
    • 支持效果之间分层模型选择策略。
    • 提供多种效果选择方法。
    • 提供基于各种选择标准的效果选择。
    • 支持停止和选择规则。
  • 预测偏最小二乘模型:
    • 提供含有分类变量、连续变量、交互和嵌套的编程语法。
    • 提供多项式样条效果的效果构成语法。
    • 支持将数据划分为训练和测试集。
    • 提供测试集验证选择提取因子的数量。
    • 实施以下方法:主成分回归、降秩回归和偏最小二乘回归。
  • 广义相加模型:
    • 拟合基于低秩回归样条的广义加法模型。
    • 使用惩罚似然估计法估计回归参数。
    • 使用性能迭代法或外部迭代法估计平滑参数。
    • 使用最大似然技术估计回归参数。
    • 根据Wald统计量检验每个样条项的总贡献。
    • 提供模型构造语法,可以包含分类变量、连续变量、交互和嵌套。
    • 可以使用多个变量构造样条术语。
  • 比例风险回归:
    • Cox比例风险回归模型拟合生存数据并进行变量选择。
    • 提供含有分类变量、连续变量、交互和嵌套的模型构造语法。
    • 提供多项式样条效果的效果构成语法。
    • 执行最大偏似然估计、分层分析和变量选择。
    • 将数据划分为训练、验证和测试集。
    • 提供加权分析和分组分析。
  • 统计流程控制:
    • 执行休哈特控制图分析。
    • 分析多个过程变量,确定超出统计控制的过程。
    • 调整控制极限补偿不相等子组大小。
    • 根据数据估计控制极限,根据总体参数(已知标准)特定值计算控制极限,或从输入数据表中读取极限。
    • 根据运行模式(西电公司规则)对特殊原因进行测试。
    • 使用各种方法估计制程标准差(仅限变量图)。
    • 在输出数据表中保存图表统计和控制限制。
  • 独立成分分析:
    • 从多元数据中提取独立成分(因子)。
    • 最大化估算成分的非高斯性。
    • 支持白化和降维。
    • 产生包含独立成分和白化变量的输出数据表。
    • 执行对称去相关,同时计算所有独立成分。
    • 执行紧缩去相关,依次提取独立成分。
  • 线性混合模型:
    • 支持多个协方差结构,包括方差成分、复合对称、非结构化、AR (1)、Toeplitz、因子分析等等。
    • 提供专门的密集和稀疏矩阵算法。
    • 支持 REML 和 ML 估计方法,这些方法通过各种优化算法实现。
    • 提供推理功能,包括标准误差和 t 检验,检验固定和随机效应。
    • 支持重复测量数据。
  • 基于模型的聚类:
    • 通过混合使用多元高斯分布对观测值进行建模。
    • 支持噪声成分和自动模型选择。
    • 提供结果的后验得分和图形解释。

描述性统计

描述性统计

  • 区分计数了解基数。
  • 箱形图评估居中和扩散,包括一个或多个变量的异常值。
  • 相关性用于测量一组变量的 Pearson 相关系数。 支持分组和加权分析。
  • 交叉表,包括加权支持。
  • 列联表,包括关联测量值。
  • 直方图可选择控制分箱值、最大阈值,异常值等。
  • 数据一次传递的多维汇总表。
  • 一个或多个变量百分位数。
  • 汇总统计,如观测次数、缺失值个数、非缺失值总和、平均值、标准差、标准误差、校正和未校正平方和、最小值和最大值以及变异系数。
  • 使用正常、三次立方和二次核函数估计核密度。
  • 构建单路到 n 路频率和交叉表。

分组处理

分组处理

  • 构建模型快速计算和处理每个分组或分段的结果,不必每次进行数据排序或检索。
  • 根据决策树或聚类分析立即建立分段模型(即分层建模)。

模型比较、评估和评分

模型比较、评估和评分

  • 生成一个或多个模型的模型比较概览,如提升图、ROC曲线图、一致性统计和错误分类表。
  • 以交互方式滑动预测截止点自动更新评估统计和分类表。
  • 以不同百分比交互评估提升。
  • 按SAS数据步代码导出模型,将模型与其他应用集成。模型使用其他模型派生结果(叶标识,聚类标识等)时,自动连接评分代码。

模型评分

模型评分

  • 按SAS数据步代码导出模型,将模型与其他应用集成。
  • 模型使用其他模型派生结果(叶标识,聚类标识等)时,自动连接评分代码。

SAS Viya 内存运行引擎模型

SAS Viya 内存运行引擎模型

  • SAS云分析服务(CAS)在内存中执行处理,并在集群节点之间分配处理。
  • 用户请求(用程序语言表示)转换成含有必要参数的动作,在分布式环境中进行处理。结果集和消息传回程序供用户进一步采取行动。
  • 数据按块进行管理,可根据需要加载到内存中。如果表超过内存容量,服务器将数据块缓存在磁盘上。如果需要,数据和中间结果可跨作业和用户边界保存在内存中。
  • 算法确定给定作业的最佳节点数。
  • 通信层支持容错,允许运行过程中删除或添加服务器节点。架构中的所有组件可以复制,实现高可用性。
  • 产品可以在多租户模式下部署,从而允许共享软件堆栈来支持安全隔离的租户。