SAS Visual Data Mining and Machine Learning 功能列表

基于 Web 的开发环境中的交互式编程

  • 整个分析生命周期过程的可视化界面。
  • 拖放式交互界面,无需编码,但也可以选择编码。
  • 支持在管道中的每个节点上自动创建代码。
  • 选择最佳实践模板(基础、中级或高级),快速启动机器学习任务或利用我们的自动化建模流程。
  • 可解释性报告,例如 PD、LIME、ICE 和 Kernel SHAP。
  • 通过 PDF 报告共享建模见解。
  • 在 Model Studio 中浏览数据,并将其中的数据直接导入 SAS 可视化分析。
  • 在 Model Studio 中编辑从 SAS Visual Analytics 导入的模型。
  • 在 Model Studio 中查看每个节点内的数据。
  • 在 Model Studio 中运行 SAS®E nterprise Miner 14.3 批处理代码。
  • 提供一个协作环境,以实现不同人员之间数据、代码片断、注释和最佳实践的轻松共享。
  • 通过 SAS Drive 创建、管理和共享内容以及管理内容权限。
  • SAS 谱系查看器可以直观地显示决策、模型、数据和决策之间的关系。

人工监督的智能自动化

  • 公共 API 可自动执行众多复杂的手动建模步骤,构建全面的机器学习模型,其中包括数据整理、特征工程、算法选择和部署。
  • 自动特征工程节点,用于自动清理、转换和选择模型特征。
  • 自动建模节点,可使用一组涵盖多种技术的优化和自动调节例程自动选择最佳模型。
  • 以交互方式调整决策树节点的修剪和拆分。
  • 自动处理元学习中的数据准备建议。
  • 使用全面的定制功能,自动生成管道。

自然语言生成

  • 以简单的语言查看结果,便于理解报告,包括模型评估和可解释性。

Python 和 R 语言的嵌入式支持

  • 将开源代码嵌入分析中,并在 Model Studio 中调用开源算法。
  • Model Studio 中开源代码节点与 Python 或 R 版本无关。
  • 在 Model Studio 的通用储存库中管理 Python 模型。

Deep learning with Python (DLPy)

  • 使用 Jupyter Notebook 为图像、文本、音频和时间序列数据构建深度学习模型。
  • GitHub 上提供下列高级 API:
    • 用于表格式数据的深度神经网络。
    • 图像分类和回归。
    • 对象检测。
    • 基于 RNN 的任务–文本分类、文本生成和序列标注。
    • 基于 RNN 的时间序列处理和建模。
  • 支持预定义网络基础架构,例如 LeNet、VGG、ResNet、DenseNet、Darknet、Inception、ShuffleNet、MobileNet、YOLO、Tiny YOLO、Faster R-CNN 和 U-Net。
  • 以 ONNX 格式导入和导出深度学习模型。
  • 通过利用 Analytic Store (ASTORE),使用 ONNX 模型对各种环境中的新数据集进行评分

SAS 程序 (PROC) 和 CAS 操作

  • 编程界面 (SAS Studio) 允许 IT 或开发人员访问 CAS 服务器,直接从 CAS 服务器加载和保存数据,并支持 CAS 服务器上的本地和远程处理。
  • Python、Java、R、Lua 和 Scala 程序员或 IT 人员可以访问数据并针对 CAS 服务器执行基本数据操作,或者使用 PROC CAS 执行 CAS 操作。
  • CAS 操作的可解释性、特征工程和建模支持。
  • 使用 REST API 将 SAS 的功能集成并添加到其他应用程序中。

高度可扩展的分布式内存分析处理

  • 针对大型数据集的分布式、在内存中进行处理的复杂分析计算可提供延迟率低的答案。
  • 将分析任务链接在一起,行程一个单一的内存作业,无需重新加载数据或将中间结果写到磁盘上。
  • 允许众多用户同时访问内存中的相同数据,提高效率。
  • 数据和中间结果会根据需要保留在内存中,以减少延迟。
  • 内置的工作量管理可确保有效利用计算资源。
  • 内置的故障转移管理确保提交的作业始终是完成的。
  • 自动化 I/O 磁盘溢出,改善内存管理。

使用现代机器学习算法进行模型开发

  • 强化学习:
    • 包括拟合 Q 网络 (FQN) 和深度 Q 网络 (DQN) 在内的技术。
    • FQN 可以在预先收集的数据点上训练模型,而无需与环境进行通信。
    • 使用回放内存和目标网络技术执行非 i.i.d. 数据点去相关并稳定训练流程。
    • 能够为状态操作对和奖励指定自定义环境。
  • 决策林:
    • 实现决策树的自动化集成,以预测单个目标。
    • 独立训练运行自动化分布。
    • 支持模型参数的智能自动调整。
    • 自动生成用于生产评分的 SAS 代码。
  • 梯度增加:
    • 自动化迭代搜索可针对所选标签变量对数据进行最优划分。
    • 根据残差调整权重,对输入数据进行几次自动重采样。
    • 自动生成最终监督模型的加权平均值。
    • 支持二进制、列名型和间隔标签。
    • 能够使用针对要增长的树数量、要采用的拆分标准、子树的深度和计算资源的各种选项自定义树训练。
    • 基于验证数据评分自动停止标准,以避免过度拟合。
    • 自动生成用于生产评分的 SAS 代码。
    • 访问热门的开源建模包 LightGBM。
  • 神经网络:
    • 自动智能调整参数集以识别最佳模型。
    • 支持计数数据建模。
    • 大多数神经网络参数的智能默认值。
    • 能够自定义神经网络架构和权重。
    • 包括深度前向神经网络 (DNN)、卷积神经网络 (CNN)、循环神经网络 (RNN) 和自编码在内的技术。
    • 能够使用任意数量的隐藏层来支持深度学习。
    • 支持不同类型的图层,例如卷积和池化。
    • 输入和目标变量的自动标准化。
    • 自动选择项和验证数据子集使用。
    • 自动进行袋外数据验证,可尽早停止以避免过度拟合。
    • 支持模型参数的智能自动调整。
    • 自动生成用于生产评分的 SAS 代码。
  • 支持向量机:
    • 为二值型目标标签建模。
    • 支持线性和多项式内核进行模型训练。
    • 能够包含连续和分类的输入/输出功能。
    • 输入特征的自动缩放。
    • 能够应用内点法和有效集法。
    • 支持数据分区以进行模型验证。
    • 支持交叉验证以进行惩罚选择。
    • 自动生成用于生产评分的 SAS 代码。
  • 因式分解机:
    • 支持基于用户 ID 和项目评级的稀疏矩阵的推荐系统开发。
    • 能够应用完整的成对交互张量分解。
    • 包含其他分类和数字输入功能,可实现更准确的模型。
    • 具有时间戳、人口统计数据和上下文信息的增压模型。
    • 支持热重启(无需完全重新培训即可使用新交易更新模型)。
    • 自动生成用于生产评分的 SAS 评分代码代码。
  • 贝叶斯网络:
    • 学习不同的贝叶斯网络结构,包括朴素、树型朴素 (TAN)、贝叶斯网络增强朴素 (BAN)、因果贝叶斯网络和马尔可夫毯。
    • 通过独立性测试执行有效的变量选择。
    • 从指定参数自动选择最佳模型。
    • 生成 SAS 代码或分析存储以对数据进行评分。
    • 从多个节点加载数据并执行并行计算。
  • 狄利克雷高斯混合模型 (GMM):
    • 可以并行执行聚类并且具有高度多线程性。
    • 执行软聚类,不仅提供预测集群值,还提供每个观测值在聚类上的概率分布。
    • 在聚类过程中学习最佳群集数,由狄利克雷过程支持。
    • 使用并行变分贝叶斯 (VB) 方法作为模型推断方法。该方法对(难处理的)后验分布进行估计,然后迭代更新模型参数,直到达到收敛为止。
  • 半监督学习算法:
    • 高度分布式和多线程。
    • 返回未标记数据表和标记数据表的预测标签。
  • t-分布随机邻域嵌入 (t-SNE):
    • 高度分布式和多线程。
    • 返回基于 t-SNE 算法并行实施的低维嵌入。
  • 生成对抗网络 (GaN)
    • 技术包括用于图像数据的 StyleGans 和用于表格数据的 GaN。
    • 为深度学习模型生成合成数据。

分析数据准备

  • 包括最佳转换的特征工程最佳实践管道。
  • 通过可视化前端提供的分布式数据管理例程。
  • 大规模数据探索和总结。
  • 基数分析:
    • 针对输入数据源的大规模数据分析。
    • 针对变量测量和角色的智能推荐。
  • 抽样:
    • 支持随机和分层抽样,对小概率事件进行过度抽样以及对抽样记录进行指示符变量处理。

数据探索、特征工程和降维

  • t-分布随机邻域嵌入 (t-SNE)。
  • 特征分箱。
  • 对用户指定值、均值、伪中位数和非缺失值随机值特征中的缺失值进行高性能补缺。
  • 特征降维。
  • 大规模主成分分析 (PCA),包括移动窗口和强大的 PCA。
  • 借助聚类分析和混合变量聚类的无监督学习。
  • 用于聚类的段剖面。

整合式文字分析

  • 支持 33 种本地语言的开箱即用:
    • 英语
    • 阿拉伯语
    • 中文
    • 克罗地亚语
    • 捷克语
    • 丹麦语
    • 荷兰语
    • 波斯语
    • 芬兰语
    • 法语
    • 德语
    • 希腊语
    • 希伯来语
    • 印地语
    • 匈牙利语
    • 印度尼西亚语
    • 意大利语
    • 日语
    • 哈萨克语
    • 韩语
    • 挪威语
    • 波兰语
    • 葡萄牙语
    • 罗马尼亚语
    • 俄语
    • 斯洛伐克语
    • 斯洛文尼亚语
    • 西班牙语
    • 瑞典语
    • 他加禄语
    • 土耳其语
    • 泰语
    • 越南语
  • 自动包括停用词列表,并适用于所有语言。
  • 自动化解析、词语切分、词性标记和词干提取。
  • 预定义概念提取常见实体,如名称、日期、货币值、度量、人员、地点等。
  • 具有机器生成主题的自动特征提取(奇异值分解和潜在狄利克雷分布)。
  • 在单个项目中支持机器学习和基于规则的方法。
  • 使用 BoolRule 自动生成规则。
  • 借助深度学习(循环神经网络),更准确地对文档进行分类。

模型评估

  • 自动计算有监督学习模型的性能统计量。
  • 生成间隔和分类目标的输出统计信息。
  • 为间隔和分类目标创建提升表。
  • 为分类目标创建 ROC 表。
  • 为具有分类目标的有监督学习模型创建事件分类和列名型分类图。

模型评分

  • 自动生成用于模型评分的 SAS DATA 步代码。
  • 将评分逻辑应用于训练、预留数据和新数据。

SAS Viya 内存引擎

  • CAS(SAS 云分析服务)在内存中执行处理,并在集群节点之间分配处理。
  • 将用户请求(用程序语言表示)转换成含有所需参数的操作,在分布式环境中进行处理。将结果集和消息传回程序供用户进一步采取行动。
  • 数据按块进行管理,可根据需要加载到内存中。
  • 如果表超过内存容量,服务器将数据块缓存在磁盘上。如果需要,数据和中间结果可跨作业和用户边界保存在内存中。
  • 包括高效的节点到节点通信。算法确定给定作业的最佳节点数。
  • 通信层支持容错,允许运行过程中删除或添加服务器节点。所有组件可以复制,实现高可用性。
  • 支持旧版 SAS 代码以及与 SAS 9.4M6 客户端直接进行互操作。
  • 支持多租户部署,允许共享软件堆叠,以安全的方式支持隔离的租户。