SAS® 数据治理特性

一个数据集成开发环境

  • 一个易于使用、点击式、基于角色的图形 GUI,带有一组直观的可配置窗口,用于管理授权流程。拖放功能使您无需进行编程。
  • 向导可访问源系统、创建目标结构、导入和导出元数据函数以及构建/执行 ETL 和 ELT 过程流。
  • 可定制元数据树视图允许您显示、可视化和理解元数据。
  • 用于分析数据的专用 GUI 可以轻松修复源系统问题,同时保留业务规则以用于其他数据管理流程。
  • 支持在开发过程中对作业进行交互式调试和测试,并可以完全访问日志。
  • 审核历史记录和签入/签出使设计人员可以查看更改了哪些作业或表,何时以及由谁进行了更改。
  • 能够在任何平台上分发数据集成任务,并以虚拟方式连接任何源或目标数据存储。
  • 与第三方供应商 Subversion 和 CVS 的集成提供了增强的版本和源代码控制功能,如存档、差异化和回滚。
  • 增强的 SAS 代码导入功能使当前 SAS 用户可以轻松地导入其 SAS 作业和代码。
  • 用于部署单个和多个作业的命令行作业部署选项。

集成式流程设计器

  • 使用可视的端到端事件设计器来构建和编辑数据管理流程。
  • 控制数据集成、SAS 存储流程和数据质量作业的执行。
  • 根据 IF THEN 逻辑和参数化有条件地执行作业。
  • 分叉“作业”和流程以实现并行执行。
  • 发布参数化作业的作业输入和输出。
  • 侦听内部和外部事件,并有条件地引发事件。
  • 执行外部操作系统级别的命令,例如调用 Shell 脚本。
  • 调用 REST 和 SOAP Web 服务。
  • 列出并打开作业的旧版本(只读模式),并使用内置版本控制使历史版本成为当前版本。
  • 提供全面的作业推广/迁移支持,以支持 DEV/TEST/PROD。
  • 使用通用脚本语言以具有自动化作业部署的自动化方式,部署数据集成批处理作业。
  • 从 SAS Data Integration Studio 中的节点运行在 SAS 决策管理器中创建的决策流。
  • 从 SAS data Integration Studio 中提供的节点将数据推送到 SAS® LASR 中,为可视化分析准备数据。

卓越的连接性和数据访问

  • 与大多数其他解决方案相比,可以批量或实时连接更多平台上的更多数据源。
  • 数据访问引擎可用于企业应用程序、非关系数据库、RDBMS、数据仓库设备、PC 文件格式等。
  • 专门的表加载器提供了 Oracle、Teradata 和 DB2 的优化批量加载。
  • 可用于 Hadoop 文件系统 (HDFS) 的文件读取器/写入器,并支持流中的 Hadoop MapReduce、Pig 和 Hive 以及 Hortonworks。
  • 通过 Cloudera Impala 界面访问 Hadoop 时,可以使用 Cloudera Impala Source Designer 查看表。
  • 完整且共享的元数据环境可跨所有数据源提供一致的数据定义。
  • 本机访问方法可提供一流的性能,减少数据移动并减少对自定义编码的需求。
  • 支持面向消息的中间件,包括 IBM 的 WebSphere MQ、Microsoft 的 MSMQ、Java 消息服务 (JMS) 和 TIBCO Rendezvous。支持非结构化和半结构化数据,用于解析和处理文件。
  • 访问静态和流数据,以通过 Web 服务进行发送和接收。
  • 扩展对 MPP 数据库的支持:Aster Data nCluster、Pivotal Greenplum 和 Sybase IQ,支持更多 ELT 下推功能和批量加载实用功能。
  • 本地支持基于 SQL 的处理。
  • 增强与 Aster Data、Pivotal Greenplum、Hadoop 和 Sybase IQ 数据库的连接,能够将更多处理推送到数据库。

一致的元数据管理

  • 元数据通过转换和数据集成流程进行捕获和记录,并可供立即重用。
  • 高级元数据映射技术可快速将列定义从源传播到目标,并创建自动化智能表联接。
  • 元数据搜索支持快速定位所需组件。
  • 影响分析,用于在更改现有对象(如列、表和流程作业)之前评估该等更改的范围和影响。
  • 能够确定生成结果信息所采用的路径、流程和转换。
  • 数据沿袭(保留影响分析)是验证依赖关系的关键,有助于建立用户对数据的信心。
  • 通过关系服务对对象元数据储存库进行批量更新,以便与 SAS 沿袭进行集成。
  • 针对元数据更改发现、比较、分析和选择性传播的更改分析。
  • 多用户协作支持包括对象签入和签出。
  • 跨开发、测试和生产环境提升和复制元数据。
  • 向导驱动的元数据导入和导出以及列标准化。
  • 得益于元数据驱动的部署灵活性,可将流程作业作为可重用的存储流程或 Web 服务进行部署以进行批处理。

数据质量的基础

  • 数据质量功能嵌入到批处理、近实时和实时流程中。
  • 使用特定语言意识和本地化,支持全球超过 38 个地区本地语言版本的数据清理。
  • 数据质量功能在操作和报告(交易和批处理)环境中都可用。
  • 交互式 GUI 使您能够分析操作数据,以识别不完整、不准确或不明确的数据。
  • 可在流程作业流中直接访问的可定制和可重用的数据质量业务规则。
  • 即时可用的标准化规则可确保数据符合公司标准,或者您可以为特殊情况构建自定义规则。
  • 整个流程中构建和共享的元数据,提供对用于清理数据的操作的准确跟踪。
  • 通过生成和追加邮政地址、地理编码、人口统计数据或其他信息来源的事实,为现有数据带来更多价值。
  • 数据管理员可使用专门设计的交互式 GUI 来分析操作数据并监控正在进行的数据活动。
  • 用于实现数据质量业务规则制度化的简单流程。根据特定流程、项目或组织的特定业务需求应用基本或复杂的规则验证数据。规则可用于批处理模式,也可用作实时事务清理流程。
  • 数据质量监控使您能够持续实时和随时间推移检查数据,发现质量何时低于可接受的限值。
  • 可以在需要采取纠正措施时发出警报。

提取、转换和加载 (ETL) 和提取、加载和转换 (ELT)

  • 采用强大的易用型转换用户界面,支持协作、流程重用和通用元数据。
  • 即时可用的基于 SQL 的转换提供 ELT 功能,包括创建表、联接、插入行、删除行、更新行、合并、SQL 集、提取和 SQL 执行。
  • 通过单源或多源数据获取、转换、清理和加载,可轻松创建数据仓库、数据集市或 BI 和分析数据存储。
  • 元数据通过数据集成和转换流程进行捕获和记录,并可供立即重用。
  • 转换可在具有任何数据源的任何平台上运行。
  • 300 多个预定义表级和列级转换。
  • 即用型分析转换,包括相关性和频率、分布分析和汇总统计量。
  • 转换向导或 Java 插件设计模板可让您轻松生成可重用和可重复的转换,这些转换在元数据中进行跟踪和注册。
  • 转换流程可通过自定义出口、消息队列和 Web 服务调用,可在不同的项目和环境中重用。
  • 转换能够以交互方式执行,并计划在设置的时间批量运行或基于触发执行的事件运行。
  • 框架环境,用于将信息发布到存档、发布频道、电子邮件或各种消息队列中间件。
  • 可在加载期间轻松刷新、追加和更新。
  • 通过用户可选的选项优化加载技术。
  • 数据库感知加载技术包括批量加载工具、索引和键的创建以及删除和截断表。
  • 转换会自动生成高性能 SAS 代码,用于快速高效的处理。
  • 转换包括:合并和散列技术的 Type 1 SCD 支持、Type 2 SCD 加载程序的表差异化和增强。
  • 比较表转换可以比较两个数据源并检测数据更改。
  • 提供调用 REST 或 SOAP Web 服务的功能。

数据联合

  • 对数据库结构、企业应用程序、大型机旧文件、文本、XML、消息队列和诸多其他源进行虚拟访问。
  • 能够跨数据源联接数据,以进行实时访问和分析。
  • 使用内置数据查看器即时访问数据的实时视图。
  • 查询优化作为 DBMS 请求的一部分自动提供,亦可在高级 SQL 编辑器中手动提供,可用于同构和异构数据源。

主数据管理

  • 增强的元数据搜索功能使您能够按类型、名称、日期或其他关键字、按文件夹或其他选项的子集进行搜索,并保存搜索以备将来使用。
  • 支持唯一标识业务元素(客户、产品、帐户等)的各个实例的输入和输出数据源的语义数据描述。
  • 强大的转换工具和嵌入式数据质量流程可提高主数据质量。
  • 先进的模糊匹配技术和聚类方法使您能够验证主记录并将其合并到可识别的数据组中。
  • 实时数据监控、仪表盘和记分卡可让您检查和控制随时间推移的数据完整性。
  • 可作为向成熟的主数据管理产品过渡的基础。
  • 数据馈送可发送到单个事务或同时发送到数百个事务。
  • 数据集可在源数据的单次传递中处理。

数据治理

  • 基于 Web 的增强引用数据管理和业务数据环境可分别简化治理和语义引用。
  • 集成式业务数据词汇表允许分层组织业务词汇,并与词汇所有者以及技术元数据(如表和数据管理流程)相关联。
  • 丰富的数据管理功能,包括基于 Web 的仪表板以及用于报告和修复的业务规则异常监控。
  • 将元数据更改发布到 SAS 关系服务中以便查看 SAS 沿袭,从而允许商业用户可视化关系或影响分析。

迁移和同步

  • 能够在数据库结构、企业应用程序、大型机旧文件、文本、XML、消息队列和诸多其他源之间迁移或同步数据。
  • 元数据驱动的源和目标访问。
  • 可扩展预定义转换的扩展库,并与其他集成流程共享。
  • 嵌入式、可重用的数据质量业务规则可在移动、同步或复制数据时将其清除。
  • 识别关键字段的更改,并跨多个数据库复制或同步更改。
  • 可选的集成调度程序允许将一个或多个系统中进行的更改按计划传播到其他系统。
  • 为同步和迁移项目提供实时数据服务。

消息队列

  • 通过基于消息的连接性集成异步业务流程。
  • 与主流消息队列产品的接口,包括 Microsoft MSMQ、IBM WebSphere、Tibco Rendezvous 和 Java 消息服务 (JMS)。
  • 有保证的消息/事务传递可降低中断成本。
  • 针对各个消息队列管理器优化访问,这些管理器旨在最大程度地减少管理工作。
  • 基于事件的应用程序集成,使一个应用程序中的活动会自动触发其他应用程序中的操作。
  • 动态的、事件驱动的运行流和警报。
  • 能够在分布式系统和异构系统之间发送和接收消息。

分区与并行处理

  • 并行写入 Hadoop。
  • SAS 可扩展性能数据服务器的 SAS PROC DS2 和 SAS FedSQL 功能。

S3 转型

  • 能够从 Amazon 环境中推送和抓取数据。

CAS 的源设计器

  • 在 SAS Data Integration Studio 中,您可以配置并连接到 SAS® Viya™ CAS。
  • 使客户能够在开始使用 SAS Viya 功能的同时继续利用现有的 SAS 9.4 平台。

Tableau 的 SAS® 元数据桥

  • 支持 Tableau(文件)和 Tableau Server(储存库)。

加强管理与监控

  • 作业状态和性能报告以及趋势信息提供了跟踪诸如 CPU 使用率、内存、I/O 等指标的能力,并提供了有关最新进程运行相对于先前运行的执行情况的更新。
  • 使用户能够管理和监控其完整的集成环境,包括以下类型的作业和活动:
    • 数据质量作业。
    • 联合缓存作业 – 计划查询以更新联合缓存。
    • 过程流。
    • 从基于 Web 的中央面板访问日志文件,以更快、更轻松地进行故障排除。
    • SAS® 存储流程。
    • 数据集成作业。

     

Back to Top