SAS® 可视化文本分析功能

数据准备和可视化

  • 摄取、清理和转换数据以进行分析,通过本地或远程文件系统、关系数据库和云存储轻松接收多种文件格式。
  • 提供直观的用户界面,标明重要因素,例如本地化/国际化和可访问性。
  • 提供使用网络流程图或路径分析对提取的实体、事实和关系进行可视化的功能
  • 术语图让您可以直观地识别术语之间的关系。
  • 图形用户界面提供可视化编程流程。

解析

  • 提供开箱即用的解析操作功能,适用于所有支持语言。
  • 文本解析支持分布式累积,通过在网格上完全分布累积过程的各个方面,实现更快的数据处理速度。
  • 词语切分将字符序列切分成单独的句子、单词或语素,然后可用于词性标注。
  • 词干提取将单词与其基本形式进行关联。
  • 拼写错误分析将拼写错误的单词与包含正确拼写单词在内的一组变体进行关联。
  • 词性标记根据单词的定义和上下文对其进行语法分类。
  • 句子边界歧义消除确定句子的开始和结束位置。
  • 相关性解析通过应用深度学习算法,分配句子与单词之间的句法关系。

趋势分析

  • 自动主题发现采用两种无监督机器学习方法–奇异值分解和潜在狄利克雷分布,根据共同主题对文档进行分组。
  • 相关性评分计算每个文档与每个主题的关联程度,二进制标记表示主题成员关系高于给定阈值。
  • 合并或拆分机器自动生成的主题(无监督机器学习),以创建用户定义主题(主题专业知识,用于优化自动化 AI 结果)。

信息提取

  • 使用诸如实体识别、关系提取和指代消解等任务,自动从非结构化或半结构化数据类型中提取结构化信息,以创建新的结构化数据。
  • 使用预定义概念提取常见实体,例如名称、组织、位置、时间表达、日期、数量、百分比等。
  • 让您能够使用关键字、布尔运算符、正则表达式、谓词逻辑和大量语言运算符创建自定义概念。
  • 让您能够参考分类规则中预定义或自定义概念,增加上下文特异性或覆盖范围。
  • 根据概念的现有规则自动生成相关的概念规则和事实规则。
  • 让您可以使用与每个预定义和自定义概念相关联的沙箱,针对文档集合快速测试新规则和模型子集。

混合建模方法

  • NLP 功能包括自动解析、词语切分、词性标记、词干提取和拼写错误检测。
  • 让您可以应用起止列表。
  • 使用利用解析操作的语言规则特殊标记、限定符和操作符,实现更精确或更好的调用/抽象能力。
  • 使用可用来提取关键概念的基于规则的语言学方法。
  • 自动解析可与深度学习算法(循环神经网络)一起使用,以更准确地对文档和情感进行分类。
  • 通过无监督机器学习自动生成主题。
  • 有监督/概率机器学习模型包括 BoolRule、条件随机场和概率语义。
  • BoolRule 可实现自动规则生成,以进行文档分类。
  • 条件随机场和概率语义用于对数据进行标记和排序,并且可以通过学习给定实体的上下文规则来自动提取实体和关系。自动规则生成器利用有监督机器学习将主题提升为类别。

情感分析

  • 识别并分析暗示情感的术语、短语和字符串。
  • 通过文档或主题显示的情感指标直观描述情感。
  • 提供使用循环神经网络进行更准确的情感分类的能力。

灵活部署

  • 概念、情感、主题和分类节点提供基于外部数据集部署模型所需的评分代码。
  • 评分代码是用于分布式处理的原生线程,最大限度利用计算资源,减少结果等待时间,即使数据集非常大的情况下。
  • 分析存储 (ASTORE) 是一个二进制文件,代表特定模型或算法中的评分逻辑。这种紧凑型资产可以轻松实现评分代码移动和向现有应用程序框架中集成。ASTORE 支持可用于概念、情感和类别节点。

本地支持 33 种语言。

  • 33 种语言开箱即用文本分析:
    • 阿拉伯语。
    • 汉语。
    • 克罗地亚语。
    • 捷克语。
    • 丹麦语。
    • 荷兰语。
    • 英语。
    • 波斯语。
    • 芬兰语。
    • 法语。
    • 德语。
    • 希腊语。
    • 希伯来语。
    • 印地语。
    • 匈牙利语
    • 印度尼西亚语。
    • 意大利语。
    • 日语。
    • 哈萨克语。
    • 韩语。
    • 挪威语。
    • 波兰语。
    • 葡萄牙语。
    • 罗马尼亚语。
    • 俄语。
    • 斯洛伐克语。
    • 斯洛文尼亚语。
    • 西班牙语。
    • 瑞典语。
    • 他加禄语。
    • 土耳其语。
    • 泰语。
    • 越南语。
  • 每种应用支持语言的默认停止列表。
  • 支持解析操作(例如词语切分、词干提取、拼写错误分析、词性标记、相关性解析和句子边界歧义消除)的内置词库。

开放式平台

  • 无缝集成现有系统和开源技术。
  • 使用 REST API 将 SAS 分析的功能添加到其他应用程序中。
  • 开放式 API 和微服务架构让您能够绕过本地 GUI 并使用自己的 UI 或构建自定义搜索应用程序。
  • 开箱即用的分析编程接口支持文本摘要、文本数据分割、文本解析和挖掘、主题建模、文本规则开发和评分,文本规则发现、术语映射和主题术语映射、条件随机场和搜索。
  • 支持从数据到发现和部署的整个分析生命周期。
  • 使用多种编程语言编写的代码,包括 SAS、Python、R、Java、Scala 和 Lua。
  • 数据和模型沿袭和监控让您可以维护对数据管理和分析的访问和控制。

Back to Top