SAS^® for Machine Learning & Deep Learning

SAS for Machine Learning & Deep Learning

基于 Web 的开发环境中的交互式编程

整个分析生命周期过程的可视化界面。
拖放式交互界面，无需编码，但也可以选择编码。
支持在管道中的每个节点上自动创建代码。
选择最佳实践模板（基础、中级或高级），快速启动机器学习任务或利用我们的自动化建模流程。
可解释性报告，例如 PD、LIME、ICE 和 Kernel SHAP。
通过 PDF 报告共享建模见解。
在 Model Studio 中浏览数据，并将其中的数据直接导入 SAS 可视化分析。
在 Model Studio 中编辑从 SAS Visual Analytics 导入的模型。
在 Model Studio 中查看每个节点内的数据。
在 Model Studio 中运行 SAS® Enterprise Miner™ 14.3 批处理代码。
提供一个协作环境，以实现不同人员之间数据、代码片断、注释和最佳实践的轻松共享。
通过 SAS Drive 创建、管理和共享内容以及管理内容权限。
SAS 谱系查看器可以直观地显示决策、模型、数据和决策之间的关系。

人工监督的智能自动化

公共 API 可自动执行众多复杂的手动建模步骤，构建全面的机器学习模型，其中包括数据整理、特征工程、算法选择和部署。
自动特征工程节点，用于自动清理、转换和选择模型特征。
自动建模节点，可使用一组涵盖多种技术的优化和自动调节例程自动选择最佳模型。
以交互方式调整决策树节点的修剪和拆分。
自动处理元学习中的数据准备建议。
使用全面的定制功能，自动生成管道。

自然语言生成

以简单语言呈现分析结果，便于理解报告，包括模型评估和解释功能。

Python 和 R 语言的嵌入式支持

将开源代码嵌入分析中，并在 Model Studio 中调用开源算法。
Model Studio 中开源代码节点与 Python 或 R 版本无关。
在 Model Studio 的通用储存库中管理 Python 模型。

Deep learning with Python (DLPy)

使用 Jupyter Notebook 为图像、文本、音频和时间序列数据构建深度学习模型。
GitHub 上提供下列高级 API：
- 用于表格式数据的深度神经网络。
- 图像分类和回归。
- 对象检测。
- 基于 RNN 的任务–文本分类、文本生成和序列标注。
- 基于 RNN 的时间序列处理和建模。
支持预定义网络基础架构，例如 LeNet、VGG、ResNet、DenseNet、Darknet、Inception、ShuffleNet、MobileNet、YOLO、Tiny YOLO、Faster R-CNN 和 U-Net。
以 ONNX 格式导入和导出深度学习模型。
通过利用 Analytic Store (ASTORE)，使用 ONNX 模型对各种环境中的新数据集进行评分

SAS 程序 (PROC) 和 CAS 操作

编程界面 (SAS Studio) 允许 IT 或开发人员访问 CAS 服务器，直接从 CAS 服务器加载和保存数据，并支持 CAS 服务器上的本地和远程处理。
Python、Java、R、Lua 和 Scala 程序员或 IT 人员可以访问数据并针对 CAS 服务器执行基本数据操作，或者使用 PROC CAS 执行 CAS 操作。
CAS 操作的可解释性、特征工程和建模支持。
使用 REST API 将 SAS 的功能集成并添加到其他应用程序中。

高度可扩展的分布式内存分析处理

针对大型数据集的分布式、在内存中进行处理的复杂分析计算可提供延迟率低的答案。
将分析任务链接在一起，行程一个单一的内存作业，无需重新加载数据或将中间结果写到磁盘上。
允许众多用户同时访问内存中的相同数据，提高效率。
数据和中间结果会根据需要保留在内存中，以减少延迟。
内置的工作量管理可确保有效利用计算资源。
内置的故障转移管理确保提交的作业始终是完成的。
自动化 I/O 磁盘溢出，改善内存管理。

使用现代机器学习算法进行模型开发

强化学习：
- 包括拟合 Q 网络 (FQN) 和深度 Q 网络 (DQN) 在内的技术。
- FQN 可以在预先收集的数据点上训练模型，而无需与环境进行通信。
- 使用回放内存和目标网络技术执行非 i.i.d. 数据点去相关并稳定训练流程。
- 能够为状态操作对和奖励指定自定义环境。
决策林：
- 实现决策树的自动化集成，以预测单个目标。
- 独立训练运行自动化分布。
- 支持模型参数的智能自动调整。
- 自动生成用于生产评分的 SAS 代码。
梯度增加：
- 自动化迭代搜索可针对所选标签变量对数据进行最优划分。
- 根据残差调整权重，对输入数据进行几次自动重采样。
- 自动生成最终监督模型的加权平均值。
- 支持二进制、列名型和间隔标签。
- 能够使用针对要增长的树数量、要采用的拆分标准、子树的深度和计算资源的各种选项自定义树训练。
- 基于验证数据评分自动停止标准，以避免过度拟合。
- 自动生成用于生产评分的 SAS 代码。
- 访问热门的开源建模包 LightGBM。
神经网络：
- 自动智能调整参数集以识别最佳模型。
- 支持计数数据建模。
- 大多数神经网络参数的智能默认值。
- 能够自定义神经网络架构和权重。
- 包括深度前向神经网络 (DNN)、卷积神经网络 (CNN)、循环神经网络 (RNN) 和自编码在内的技术。
- 能够使用任意数量的隐藏层来支持深度学习。
- 支持不同类型的图层，例如卷积和池化。
- 输入和目标变量的自动标准化。
- 自动选择项和验证数据子集使用。
- 自动进行袋外数据验证，可尽早停止以避免过度拟合。
- 支持模型参数的智能自动调整。
- 自动生成用于生产评分的 SAS 代码。
支持向量机：
- 为二值型目标标签建模。
- 支持线性和多项式内核进行模型训练。
- 能够包含连续和分类的输入/输出功能。
- 输入特征的自动缩放。
- 能够应用内点法和有效集法。
- 支持数据分区以进行模型验证。
- 支持交叉验证以进行惩罚选择。
- 自动生成用于生产评分的 SAS 代码。
因式分解机：
- 支持基于用户 ID 和项目评级的稀疏矩阵的推荐系统开发。
- 能够应用完整的成对交互张量分解。
- 包含其他分类和数字输入功能，可实现更准确的模型。
- 具有时间戳、人口统计数据和上下文信息的增压模型。
- 支持热重启（无需完全重新培训即可使用新交易更新模型）。
- 自动生成用于生产评分的 SAS 评分代码代码。
贝叶斯网络：
- 学习不同的贝叶斯网络结构，包括朴素、树型朴素 (TAN)、贝叶斯网络增强朴素 (BAN)、因果贝叶斯网络和马尔可夫毯。
- 通过独立性测试执行有效的变量选择。
- 从指定参数自动选择最佳模型。
- 生成 SAS 代码或分析存储以对数据进行评分。
- 从多个节点加载数据并执行并行计算。
狄利克雷高斯混合模型 (GMM)：
- 可以并行执行聚类并且具有高度多线程性。
- 执行软聚类，不仅提供预测集群值，还提供每个观测值在聚类上的概率分布。
- 在聚类过程中学习最佳群集数，由狄利克雷过程支持。
- 使用并行变分贝叶斯 (VB) 方法作为模型推断方法。该方法对（难处理的）后验分布进行估计，然后迭代更新模型参数，直到达到收敛为止。
半监督学习算法：
- 高度分布式和多线程。
- 返回未标记数据表和标记数据表的预测标签。
t-分布随机邻域嵌入 (t-SNE)：
- 高度分布式和多线程。
- 返回基于 t-SNE 算法并行实施的低维嵌入。
生成对抗网络 (GaN)
- 技术包括用于图像数据的 StyleGans 和用于表格数据的 GaN。
- 为深度学习模型生成合成数据。

分析数据准备

包括最佳转换的特征工程最佳实践管道。
通过可视化前端提供的分布式数据管理例程。
大规模数据探索和总结。
基数分析：
- 针对输入数据源的大规模数据分析。
- 针对变量测量和角色的智能推荐。
抽样：
- 支持随机和分层抽样，对小概率事件进行过度抽样以及对抽样记录进行指示符变量处理。

数据探索、特征工程和降维

t-分布随机邻域嵌入 (t-SNE)。
特征分箱。
对用户指定值、均值、伪中位数和非缺失值随机值特征中的缺失值进行高性能补缺。
特征降维。
大规模主成分分析 (PCA)，包括移动窗口和强大的 PCA。
借助聚类分析和混合变量聚类的无监督学习。
用于聚类的段剖面。

整合式文字分析

支持 33 种本地语言的开箱即用：
- 英语
- 阿拉伯语
- 中文
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 波斯语
- 芬兰语
- 法语
- 德语
- 希腊语
- 希伯来语
- 印地语
- 匈牙利语
- 印度尼西亚语
- 意大利语
- 日语
- 哈萨克语
- 韩语
- 挪威语
- 波兰语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 斯洛伐克语
- 斯洛文尼亚语
- 西班牙语
- 瑞典语
- 他加禄语
- 土耳其语
- 泰语
- 越南语
自动包括停用词列表，并适用于所有语言。
自动化解析、词语切分、词性标记和词干提取。
预定义概念提取常见实体，如名称、日期、货币值、度量、人员、地点等。
具有机器生成主题的自动特征提取（奇异值分解和潜在狄利克雷分布）。
在单个项目中支持机器学习和基于规则的方法。
使用 BoolRule 自动生成规则。
借助深度学习（循环神经网络），更准确地对文档进行分类。

模型评估

自动计算有监督学习模型的性能统计量。
生成间隔和分类目标的输出统计信息。
为间隔和分类目标创建提升表。
为分类目标创建 ROC 表。
为具有分类目标的有监督学习模型创建事件分类和列名型分类图。

模型评分

自动生成用于模型评分的 SAS DATA 步代码。
将评分逻辑应用于训练、预留数据和新数据。

SAS Viya 内存引擎

CAS（SAS 云分析服务）在内存中执行处理，并在集群节点之间分配处理。
将用户请求（用程序语言表示）转换成含有所需参数的操作，在分布式环境中进行处理。将结果集和消息传回程序供用户进一步采取行动。
数据按块进行管理，可根据需要加载到内存中。
如果表超过内存容量，服务器将数据块缓存在磁盘上。如果需要，数据和中间结果可跨作业和用户边界保存在内存中。
包括高效的节点到节点通信。算法确定给定作业的最佳节点数。
通信层支持容错，允许运行过程中删除或添加服务器节点。所有组件可以复制，实现高可用性。
支持旧版 SAS 代码以及与 SAS 9.4M6 客户端直接进行互操作。
支持多租户部署，允许共享软件堆叠，以安全的方式支持隔离的租户。

SAS for Machine Learning & Deep Learning

基于 Web 的开发环境中的交互式编程

人工监督的智能自动化

自然语言生成

Python 和 R 语言的嵌入式支持

Deep learning with Python (DLPy)

SAS 程序 (PROC) 和 CAS 操作

高度可扩展的分布式内存分析处理

使用现代机器学习算法进行模型开发

分析数据准备

数据探索、特征工程和降维

整合式文字分析

模型评估

模型评分

SAS Viya 内存引擎

关注我们

什么是...