数据科学

它是什么,它为什么重要

数据科学是一个跨学科领域,大致可描述为使用数据来产生洞察的学科。与数据挖掘或数据工程等更专门的数据相关领域不同,数据科学涵盖了将原始数据转化为可用信息,并将其应用以提高生产力的完整生命周期。

数据科学的演变

在追溯数据科学的起源时,许多人会想到 1962 年。当时数学家 John Tukey 在其开创性的论文《数据分析的未来》(The Future of Data Analysis) 中便预示了这门学科的诞生。在这篇文章中,他描述了一门“未被承认的科学”的存在,而这门科学便涉及到从数据中学习。

然而,在现代世界的背景中审视数据科学可能更有裨益。得益于处理和存储能力的飞跃,大数据成为可能,其为大小组织带来了前所未有的机会,其能揭示数据中的隐藏规律,并帮助组织利用这种洞察来做出更明智的决策。但要做到这一点,他们必须首先收集、处理、分析和分享这些数据。管理这个数据生命周期便是数据科学的本质。

今天,数据科学在商业世界中无处不在,甚至远超商业世界的范畴,以至于《哈佛商业评论》将数据科学家称作是21 世纪最性感的职业。如果将数据科学家比作医生的话,那么数据科学本身便既是行医技能,又是行医工具。

制造

将最佳模型部署到生产中

USG 是一家全球建筑材料制造商,其必须以合理的价格生产高质量的产品。在部署 SAS® Model Manager 之后,这家石膏灰胶纸夹板生产商可以挑选出最佳的原材料配方,并以近乎实时的方式调整其生产流程,以实现这一目标。

当今世界的数据科学

了解现代数据科学世界的冰山一角。

数据科学的经验

查看数据科学家们的视频、文章和点播式网络研讨会,探索数据科学的真实应用案例。

通过 SAS® 和开源整合推动分析创新

这本电子书通过在数据科学中整合开源软件和 SAS,为现代组织的创新提供指导。

数据科学和说服的艺术

这篇“哈佛商业评论”网络研讨会摘要介绍了数据科学团队必须做什么才能取得更大的成就,以及数据科学家为提高整体效率而应该培养的技能。

数据科学资源中心

这个资源中心几乎拥有您所需要的一切,能够为您提供作为数据科学家所需的多种培训资源。它包括视频、文章、网络研讨会和其他学习材料。实用的主题包括数据叙事、科学研究,以及轻松搞定数据科学家职位面试等。

Gartner 的数据科学魔力象限

好奇各家数据科学平台的能力孰强孰弱?查看 Gartner 的数据科学和机器学习平台魔力象限,比较前 20 名产品。

谁在使用数据科学?

您很难找到一个不将数据科学注入关键业务职能的行业。以下是几个最有趣的使用案例。

医疗保健

以价值为导向的护理以及对更快药物发现周期的需求不断增加,加速了数据科学在医疗保健领域的应用。仅在医学成像领域,人工智能和分析现在就有助于提高诊断的准确性、提高医生和放射科医生的能力,并改善病人的护理服务。

零售业

为了与世界各地的亚马逊站点竞争,零售商必须能够利用预测分析等数据科学技术迅速满足客户需求。这样做可以帮助预测需求水平、管理不断波动的需求,并在整个供应链的趋势和关系之间建立起关联。

公共部门

随着政府机构决策数量以及决策复杂性的日益增加,各政府机构正不断转向数据科学以提高决策的准确性、公正性和速度。请了解世界各地的政府如何利用分析技术来做出每天数以百万计的重要决定。

银行业

对于银行来说,数据科学不仅仅是一种趋势,它也是业务的完成方式。数据科学现已广泛应用到了欺诈检测、客户情报和风险管理等用例中,已成为关键业务决策背后的驱动力,也是在竞争白热化金融环境中的竞争差异化因素。

数据科学成果

查看一些常见的数据科学目标和交付成果,有利于了解数据科学对组织的多种影响。

  • 预测(资产何时失效)。
  • 分类(新客户或现有客户)。
  • 建议(喜欢的话,就试试这个)。
  • 异常检测(欺诈性购买)。
  • 识别(图像、文本、音频、视频,等等)。
  • 可操作的洞察建议(仪表盘、报告、可视化)
  • 自动化流程和决策(信用卡审批)。
  • 计分和排名(信用评分)。
  • 市场细分(目标营销)。
  • 优化(制造改进)。
  • 预测(预测销售和收入)。

如果您想通过更好地选择、部署并管理模型来改善您的数据科学工作,那么我们建议您探索人工智能和机器学习主题的更多培训内容。 Ronald van Loon Principal Analyst CEO of Intelligent World

组合式 AI

今天,大多数人工智能项目都依赖于多种数据科学技术。Gartner 将组合式 AI 定义为:使用不同人工智能技术的组合来实现最佳结果。

借助组合式 AI,您从分析问题开始,然后应用正确的数据和工具来解决问题。这通常包括使用一系列数据科学技术组合,包括机器学习、统计、高级分析、数据挖掘、预测、优化、自然语言处理、计算机视觉等等。

组合式 AI 逐渐成为了数据科学的代名词。这是因为选择使用正确的 AI 技术往往并非那么容易。这需要深入了解您要解决的业务问题和可用于解决该问题的数据。这种业务和技术技术的结合才是数据科学的本质。

数据科学如何发挥作用

数据科学涉及使用多种工具和技术,从结构化和非结构化数据中获取有意义的信息。以下是数据科学家用来将原始信息转化为改变业务的洞察力的一些常见做法。

数据管理是管理数据的做法,其能够为组织释放潜力。有效地管理数据需要数据战略和可靠的方法,从而访问、整合、清理、管理、存储和准备用于分析的数据。 

机器学习
会自动建立分析模型。通过无监督式机器学习,该技术使用神经网络、统计学、运筹学和物理学的方法来寻找数据中隐藏的洞察,而无需明确编程去指定寻找哪里,或得出什么样的结论。

神经网络
是一种机器学习类型,受人类大脑的工作方式启发。该计算系统由相互连接的单元(如神经元)组成,这些单元通过响应外部输入、在各个单元之间中继信息来处理信息。

深度学习使用具有许多层处理单元的巨大神经网络,利用计算能力的进步和改进的训练技术来学习大量数据中的复杂模式。常见的应用包括图像和语音识别。

计算机视觉依靠模式识别和深度学习来识别图片或视频中的内容。当机器能够处理、分析和理解图像时,它们可以实时捕捉图像或视频,并对周围环境进行解读。

自然语言处理是计算机分析、理解和生成人类语言,包括语音的能力。NLP 的下一个阶段是自然语言交互,它允许人类使用语言与计算机交流,以执行任务。

数据可视化是指将数据以图画或图形的形式呈现出来,以便进行分析。为了帮助组织基于数据科学成果做出业务决策,这尤为重要。 

广泛使用的数据科学编程语言

就像人类会使用各种语言一样,数据科学家亦是如此。目前存在数百种编程语言,选择正确的语言取决于您的目的是什么。下面我们来看看一些顶级的数据科学编程语言。 

Python 是一种解释型、面向对象、具有动态语义的高级编程语言。它具有高级内置数据结构,结合动态定型和动态绑定,使它对快速应用开发极具吸引力,同时也是连接现有组件的脚本或胶水语言。

R 是由 R 统计计算基金会 (R Foundation for Statistical Computing) 支持的统计计算和图形免费软件环境。R 语言被统计学家和数据挖掘专家广泛用于开发统计软件和数据分析中。

SQL 是一种用于编程的特定领域语言,旨在于管理关系数据库管理系统 (RDBMS) 中的数据,或用于关系数据流管理系统 (RDSMS) 中的流处理。它在处理结构化数据(即包含实体和变量之间关系的数据)方面颇为有益。

SAS 是全球数十万数据科学家信赖的编程语言。SAS Viya 平台可以帮助您结合企业中每个技术系统和编程语言的优势,从而更好地开发和部署分析模型。请阅读并了解 SAS Viya 如何将您的建模大熔炉转化为更明智的商业决策。

下一步

如果您想学习数据科学,SAS 便是您理想的目的地。

数据科学解决方案

SAS Viya 数据科学产品 具有强大的数据管理、可视化、高级分析和模型管理功能,能够加快几乎任何组织的数据科学进程。

SAS Visual Data Mining 和 Machine Learning 能够帮助您借助单一、集成的、协作的解决方案来解决最为复杂的分析问题,现已推出自动建模 API。

SAS Visual Analytics 可为您提供快速准备互动式报告,通过可视化显示屏探索您的数据,并进行自助式分析。

这些解决方案由 SAS Viya 提供支持,是 SAS 市场前沿的数据科学平台,运行于现代、可扩展的云架构之上。

与 SAS 联系,了解我们能为您做些什么。