计算机视觉
它是什么,它为什么重要
计算机视觉的历史
针对计算机视觉的早期实验始于 20 世纪 50 年代,实验中使用了一些最初的神经网络来检测对象的边缘并将简单的对象分类为诸如圆形和正方形等类别。20 世纪 70 年代,计算机视觉的首个商业用途是使用光学识别符来解释打字机或手写文本。这一进步被用来为盲人解释书面文字。
随着 20 世纪 90 年代互联网的成熟提供了大量可用于分析的在线图像集,面部识别程序开始蓬勃发展。这些不断增长的数据集为实现机器识别照片和视频中的特定人员提供了帮助。
如今,多种因素融合在一起,推动了计算机视觉的复兴:
内置摄像头的移动技术已让世界充满了照片和视频。
计算能力已变得更加经济实惠且易于使用。
为计算机视觉和分析设计的可用硬件增多。
卷积神经网络这类新算法可以利用硬件和软件功能。
这些进步对计算机视觉领域的影响令人震惊。在不到十年的时间里,对象识别和分类的准确率已从 50% 上升到了 99%,并且如今的系统在快速检测视觉输入并对视觉输入做出反应方面其准确度甚至胜过人类。
计算机视觉就像一个拼图游戏
计算机以与您组装拼图相同的方式组装视觉图像。
想一想您是如何玩拼图游戏的。您拥有所有这些单片拼图,并且需要将它们组合成一个图像。这就是用于计算机视觉的神经网络的工作方式。他们区分图像的众多不同部分,识别边缘,然后对子组件建模。通过使用深层网络层实施过滤和一系列操作,它们可以将图像的所有部分组合在一起,就像您拼装拼图一样。
虽然计算机没有获得像拼图盒上展示的那种最终图像,其通常会获取数百或数千个相关图像,以进行训练来识别特定对象。
程序员无需训练计算机通过寻找腮须、尾巴和尖锐的耳朵来识别猫,而是上传数百万张猫的照片,然后模型会自己学习组成猫的不同特征。
谁在使用计算机视觉?
计算机视觉在各行各业中都有应用,被用于提升消费者体验、降低成本并提高安全性。
零售业
零售商可以使用计算机视觉来提升购物体验、加强损失预防,并发现缺货货架。计算机视觉已经在帮助客户更快地进行结帐–使用自助结帐机器进行辅助或与机器学习相结合以完全缓解结帐过程负担。
政府
公共部门机构使用计算机视觉来更好地了解其控制下的资产的物理状态,包括设备和基础设施。计算机视觉可以通过分析设备和基础设施图像来帮助机构执行预测性维护,从而更好地确定需要维护的设备和基础设施。此外,公共部门机构使用计算机视觉来帮助监控对政策和法规的遵守情况。例如,计算机视觉可用于检测货物中的违禁品、标记建筑物中潜在的安全违规行为、审核标签以确保遵守准则,并确保保护法规合规。最后,随着无人机被越来越多地用于国防和国土安全需求,使用分析来识别和分析视觉源中的关键要素将成为公共部门计算机视觉的前沿用例。
医疗保健
在医学领域,计算机视觉系统通过彻底检查 MRI、CAT 扫描和 X 射线中的图像,像人类医生一样准确地检测异常。医疗专业人员还使用三维图像(如超声波)上的神经网络来检测心跳等的视觉差异。
计算机视觉是深度学习和人工智能世界中最杰出的技术之一。深度学习对计算机视觉领域的贡献让该领域变得与众不同。 Wayne Thompson SAS Data Scientist
用于动物保护的计算机视觉
了解旨在分析动物踪迹的计算机视觉模型如何工作。可以训练计算机像本地动物追踪者一样查看足迹吗?查看计算机如何处理不同的信息层以确定动物种类及其性别。在此视频中,SAS 高级分析研发高级经理 Jared Peterson 展示了神经网络这门科学如何在背后支持计算机视觉。
计算机视觉如何工作
计算机视觉工作分为三个基本步骤:
获取图像
可以通过视频、照片或 3D 技术实时获取图像(甚至是大型图像集)来进行分析。
处理图像
深度学习模型会自动执行此过程的大部分步骤,不过通常会先向模型提供数千个标记或预先识别的图像,以对其进行训练。
理解图像
最后一步是解释性步骤,在这一步中会对对象进行识别或分类。
如今的 AI 系统可以更进一步,基于对图像的理解来采取行动。计算机视觉有许多类型,并具有不同的使用方式:
- 图像分割将图像划分为多个区域或片段以分别进行检查。
- 对象检测识别图像中的特定对象。先进的对象检测功能可以在单个图像中识别许多对象:足球场、进攻球员、防守球员、足球等。这些模型使用 X、Y 坐标来创建边界框并识别框内的所有内容。
- 面部识别是一种高级的对象检测类型,它不仅可以识别图像中的人脸,还可以识别特定的人。
- 边缘检测是用于识别物体或风景的外部边缘以更好地识别图像内容的技术。
- 模式检测是识别图像中重复的形状、颜色和其他视觉指示的过程。
- 图像分类将图像分为不同的类别。
- 特征匹配是一种模式检测,可以匹配图像中的相似之处以帮助对其进行分类。
计算机视觉的简单应用可能仅使用以上技术之一,但是更高级的应用(例如自动驾驶汽车的计算机视觉)则依靠多种技术来实现其目标。
面向计算机视觉的特色产品
SAS®可视化数据挖掘和机器学习
除深度学习外,该 SAS 解决方案还支持聚类、不同风格的回归、随机森林、梯度 Boosting 模型、支持向量机、倾向性分析等。交互式可视化管道环境会将每个项目(或目标)表示为按逻辑顺序发生的一系列颜色编码步骤。
Recommended reading
- 文章 What are AI hallucinations?Separating fact from AI-generated fiction can be hard. Learn how large language models can fail and lead to AI hallucinations – and discover how to use GenAI responsibly.
- 文章 Detect and prevent banking application fraudCredit fraud often starts with a falsified application. That’s why it’s important to use analytics starting at the entrance point. Learn how analytics and machine learning can detect fraud at the point of application by recognizing the biggest challenge – synthetic identities.
- 文章 How to drill a better hole with analyticsFrom drilling holes to preventing health care fraud, learn about some of the new technologies SAS has patented with IoT and machine learning technologies.