SAS® 云上的 SAS® 机器学习特色

使用现代机器学习算法进行模型开发

  • 决策林:
    • 独立训练运行分布。
    • 支持模型参数的智能超参数自动调整。
    • 生成用于生产评分的 SAS ASTORE。
  • 梯度增加:
    • 自动化迭代搜索可针对所选标签变量对数据进行最优划分。
    • 根据残差调整权重,对输入数据进行自动重采样。
    • 自动生成最终监督模型的加权平均值。
    • 支持二进制、列名型和间隔标签。
    • 能够使用针对要增长的树数量、要采用的拆分标准、子树的深度和计算资源的各种选项自定义树训练。
    • 基于验证数据评分自动停止标准,以避免过度拟合。
    • 生成用于生产评分的 SAS ASTORE。
  • 神经网络:
    • 自动智能调整参数集以识别最佳模型。
    • 支持计数数据建模。
    • 大多数神经网络参数的智能默认值。
    • 能够自定义神经网络架构和权重。
    • 包括深度前向神经网络 (DNN)、卷积神经网络 (CNN)、循环神经网络 (RNN) 和自编码在内的技术。
    • 能够使用任意数量的隐藏层来支持深度学习。
    • 输入和目标变量的自动标准化。
    • 自动进行袋外数据验证,可尽早停止以避免过度拟合。
    • 支持模型参数的智能超参数自动调整。
    • 生成用于生产评分的 SAS ASTORE。
    • 深度学习的分段模型。
    • 移动或物联网设备网络开发平台。
    • 深度学习和生物医学成像算法共同应用,以快速识别和呈现形状视图。
    • 加载本地 DICOM 文件。
    • 端到端管道用于处理音频流,并直接从 MIC 或大型音频文件中分析音频数据。
  • 支持向量机:
    • 为二值型目标标签建模。
    • 支持线性和多项式内核进行模型训练。
    • 能够包含连续和分类的输入/输出功能。
    • 输入特征的自动缩放。
    • 能够应用内点法和有效集法。
    • 支持数据分区以进行模型验证。
    • 支持交叉验证以进行惩罚选择。
    • 生成用于生产评分的 SAS ASTORE。
  • 因式分解机
    • 支持基于用户 ID 和项目评级的稀疏矩阵的推荐系统开发。
    • 能够应用完整的成对交互张量分解。
    • 包含其他分类和数字输入功能,可实现更准确的模型。
    • 具有时间戳、人口统计数据和上下文信息的增压模型。
    • 支持热重启(无需完全重新培训即可使用新交易更新模型)。
    • 生成用于生产评分的 SAS ASTORE。
  • 贝叶斯网络:
    • 学习不同的贝叶斯网络结构,包括朴素、树型朴素 (TAN)、贝叶斯网络增强朴素 (BAN)、因果贝叶斯网络和马尔可夫毯。
    • 通过独立性测试执行有效的变量选择。
    • 从指定参数自动选择最佳模型。
    • 生成用于生产评分的 SAS ASTORE。
  • 狄利克雷高斯混合模型 (GMM):
    • 可以并行执行聚类并且具有高度多线程性。
    • 执行软聚类,不仅提供预测集群值,还提供每个观测值在聚类上的概率分布。
    • 在聚类过程中学习最佳群集数。
    • 使用并行变分贝叶斯 (VB) 方法作为模型推断方法。该方法对(难处理的)后验分布进行估计,然后迭代更新模型参数,直到达到收敛为止。
  • 半监督学习算法:
    • 高度分布式和多线程。
    • 返回未标记数据表和标记数据表的预测标签。
  • t-分布随机邻域嵌入 (t-SNE):
    • 高度分布式和多线程。
    • 返回基于 t-SNE 算法并行实施的低维嵌入。

最新的统计算法

  • 聚类
    • K均值、k模式或k原型聚类。
    • 平行坐标图以交互方式评估聚类成员关系。
    • 散点图含有覆盖小型数据集的聚类简档,热图含有覆盖大型数据集的降类简档。
    • 详细的汇总统计量。
    • 按需生成聚类ID作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
  • 决策树:
    • 计算变量重要性测量值。
    • 支持分类树和回归树。
    • 基于修改的 C4.5 算法或成本复杂性修剪。
    • 交互式扩大和修剪树。交互式训练子树。
    • 设置树深度、最大分支、叶子大小、树枝修剪的主动性等。
    • 使用树形图显示交互浏览树结构。
    • 按需生成叶子标识、预测值和残差作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
    • 支持修剪预留数据。
    • 支持自动调整。
  • 逻辑回归:
    • 含有logit和probit连接函数的二进制数据模型。
    • 影响统计。
    • 变量选择,包括迭代图。
    • 支持向前、向后、逐步和套索变量选择。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括总体方差分析、模型尺寸、拟合统计,模型方差分析、III型测试和参数估计。
    • 按需生成预测值和残差作为新列。
    • 支持保留数据(训练和验证)用于模型评估。
  • 线性回归:
    • 影响统计。
    • 变量选择,包括迭代图。
    • 支持向前、向后、逐步和套索变量选择。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括总体方差分析、模型尺寸、拟合统计,模型方差分析、III型测试和参数估计。
    • 按需生成预测值和残差作为新列。
    • 支持预留数据(训练和验证)用于模型评估
  • 广义线性模型:
    • 支持的分布包括贝塔、正态、二进制、指数、伽马、几何、泊松、Tweedie、逆高斯和负二项。
    • 支持向前、向后、逐步和套索变量选择。
    • 变量选择,包括迭代图。
    • 偏移变量支持。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括模型汇总、迭代历史、拟合统计、III型测试和参数估计。
    • 信息缺失选项支持预测变量缺失值处理。
    • 按需生成预测值和残差作为新列。
    • 支持保留数据(训练和验证)用于模型评估。 
  • 广义相加模型:
    • 支持的分布包括正态、二进制、伽马、泊松、Tweedie、逆高斯和负二项。
    • 支持一维和二维样条效果。
    • GCV、GACV和UBRE方法可选平滑效果。
    • 偏移变量支持。
    • 频率和加权变量。
    • 残差诊断。
    • 汇总表包括模型汇总、迭代历史、拟合统计和参数估计。
    • 支持保留数据(训练和验证)用于模型评估。 
  • 非参数逻辑回归:
    • 含有logit、probit、log-log和c-log-log连接函数的二进制数据模型。
    • 支持一维和二维样条效果。
    • GCV、GACV和UBRE方法可选平滑效果。
    • 偏移变量支持。
    • 频率和加权变量。
    • 购物篮分析。
    • PROC MBANALYSIS 语句中的新 NLHS_RANGE 选项允许您指定规则左侧 (LHS) 中项目数的范围。
    • PROC MBANALYSIS 语句中的新 NRHS_RANGE 选项允许您指定规则右侧 (RHS) 中项目数的范围。
    • PROC MBANALYSIS 语句中的新 ANTECEDENTLIST= 选项使您可以指定正则表达式字符串,使其与规则的先决条件(左侧)匹配。
    • PROC MBANALYSIS 语句中的新 CONSEQUENTLIST= 选项使您可以指定正则表达式字符串,使其与规则的结果子句(右侧)匹配。
    • PROC MBANALYSIS 语句中的新 SEPARATOR= 选项使您可以在规则的先决条件(左侧)或结果子句(右侧)中指定分隔符。
    • ITEMS= 选项的最大限制设置为 1,000。
    • 每个节点上每个线程生成的最大规则数为 100 万。
  • k-NN(K 最邻近值)
    • 高度分布式和多线程。
    • 基于 k-NN 搜索算法的并行实现返回 k 最邻近值。

分析数据准备

  • 通过编码提供的分布式数据管理例程:
    • t-分布随机邻域嵌入 (t-SNE)。
    • 特征分箱。
    • 对用户指定值、均值、伪中位数和非缺失值随机值特征中的缺失值进行高性能补缺。
    • 特征降维。
    • 大规模主成分分析 (PCA),包括移动窗口和强大的 PCA。
    • 借助聚类分析和混合变量聚类的无监督学习。
  • 大规模数据探索和总结。
  • 针对输入数据源的大规模数据分析。
  • 抽样:支持随机和分层抽样,对小概率事件进行过度抽样以及对抽样记录进行指示符变量处理。

整合式文字分析

  • 支持 32 种本地语言的开箱即用:
    • 英语。
    • 阿拉伯语。
    • 汉语。
    • 克罗地亚语。
    • 捷克语。
    • 丹麦语。
    • 荷兰语。
    • 波斯语。
    • 芬兰语。
    • 法语。
    • 德语。
    • 希腊语。
    • 希伯来语。
    • 印地语。
    • 匈牙利语。
    • 印度尼西亚语。
    • 意大利语。
    • 日语。
    • 韩语。
    • 挪威语。
    • 波兰语。
    • 葡萄牙语。
    • 罗马尼亚语。
    • 俄语。
    • 斯洛伐克语。
    • 斯洛文尼亚语。
    • 西班牙语。
    • 瑞典语。
    • 他加禄语。
    • 土耳其语。
    • 泰语。
    • 越南语。
  • 自动化解析、词语切分、词性标记和词干提取。
  • 预定义概念提取常见实体,如名称、日期、货币值、度量、人员、地点等。
  • 具有机器生成主题的自动特征提取(奇异值分解和潜在狄利克雷分布)。
  • 在单个项目中支持机器学习和基于规则的方法。
  • 使用 BoolRule 自动生成规则。
  • 借助深度学习(循环神经网络),更准确地对文档进行分类。

模型评估

  • 自动计算有监督学习模型的性能统计量。
  • 生成间隔和分类目标的输出统计信息。
  • 为间隔和分类目标创建提升表。
  • 为分类目标创建 ROC 表。

模型评分

  • 自动生成用于模型评分的 SAS DATA 步代码。
  • 将评分逻辑应用于训练、预留数据和新数据。

SAS® 程序 (PROC) 和 CAS 操作

  • 编程界面 (SAS® Studio) 允许 IT 或开发人员访问 CAS 服务器,直接从 CAS 服务器加载和保存数据,并支持在 CAS 服务器上进行本地和远程处理。
  • Python 程序员或 IT 人员可以访问数据并针对 CAS 服务器执行基本数据操作,或者使用 PROC CAS 执行 CAS 操作。

Back to Top