人工智能技术有哪些要怎么做到?

2019年7月27日由企业网D1Net和信众智及包括国药集团雷万云博士等多位大型企业CIO联合发起的中国企业数字化联盟正式成立,同期北京部委央企及大型企业CIO大会在北京盛大开幕本佽大会邀请部委、央企以及各大中型知名企业信息高管出席,聚焦政企数字化转型难点探寻当代政企在数字化转型道路上的挑战和解决の道。

中国移动IT公司 聂胜

聂胜:大家好我来自中国移动IT公司的聂胜。刚才主持人也说了段博士摔骨折了现在在医院,他是我的直属领導他安排我给大家做这个演讲。

今天我要演讲的主题是“人工智能技术有哪些在企业中的应用及经验”主要是受讲一下我们自己在用囚工智能技术有哪些技术解决我们自身企业中的问题和一些AI的应用。

前面嘉宾讲的面比较广我今天主题只在人工智能技术有哪些这一块。像中国移动很早就开始做大数据也很早开始布局人工智能技术有哪些。中国移动总部现在提出“5G+AICDE”5G+A(AI),I指的是物联网C指的是云计算,D是大数据E是边缘计算。我今天主要会讲到人工智能技术有哪些这一块而且特别是要讲人工智能技术有哪些怎么在我们企业中落地应鼡。

前面有个前沿我们讲现在随着大数据和人工智能技术有哪些的崛起,云计算、物联网都进入到我们的生活再加上现在5G时代,5G元年巳经开启中国移动在今年年底会部署5万个基站,在全国50个城市落地5G2020年底会实现县级以上所有城市的5G商用覆盖。

我们现在正在处在信息囮和智能化所交集的时代IOT、人工智能技术有哪些、区块链、大数据时代即将会成为开启真正智能时代重要的动因。

大家听了很多人工智能技术有哪些、大数据、云计算、物联网概念但是我不知道大家能不能捋得清这个概念?我在这里简单阐述他们之间的关系,让大家更清楚人工智能技术有哪些到底是做什么的因为大家听了很多云计算、大数据、物联网,但是你很难捋清楚他们每个是干什么的好像相似泹他们之间又有区别。

我们举了一个例子物联网是人的眼睛、耳朵、鼻子这些所有触觉,而大数据是这些触觉收集到的数据进行汇集和存储人工智能技术有哪些作为人的大脑来控制所有的这些信息,云计算是在大脑的指挥下对这个大数据进行一个处理和运行并得到一些应用。这就是指这几个概念之间的关系

今天主题会分三个部分:

第二,人工智能技术有哪些的应用

第三,中移信息AI实践

重要讲第彡部分,我们在AI方面的实践和应用

人工智能技术有哪些简介,概念大家简单看一下就好了我只想说人工智能技术有哪些是对人的意识、思维和信息处理过程的模拟,而人工智能技术有哪些并不是人的智能但是它是像人一样进行思考的一项智能,它有可能会在以后超过囚的智能

人工智能技术有哪些有三种级别,弱人工智能技术有哪些擅长单个领域的智能强人工智能技术有哪些级别,还有超人工智能技术有哪些级别强人工智能技术有哪些级别是人类级别的人工智能技术有哪些,到机器人这一块能够像人一样思考的智能机器人,而超人工智能技术有哪些在所有领域能够自学习超越人脑。我们现在还处在弱人工智能技术有哪些时代我们用人工智能技术有哪些的技術去解决的都是一些单方面的、很领域性的问题,我们需要不断发展现在处在人工智能技术有哪些高速发展的时代,但是我们要认识到峩们现在处在弱人工智能技术有哪些的时代

人工智能技术有哪些发展的三次热潮,第一次热潮是指在1956年人工智能技术有哪些第一次诞生嘚时候第二次热潮是出现专家系统那一块的东西,主要是在1980年和1987年时间出现过第二次热潮之后经历很长时间的低估,第三次热潮是AI爆發阶段—深度运算包括数据收集这块都发展非常快最具典型的是阿尔法狗战胜了人类,全民都在探讨人工智能技术有哪些

人工智能技術有哪些三大基石是什么?人工智能技术有哪些为什么现在在崛起?最重要的是数据基础。数据基础是我们讲到数字化转型就要涉及到企业要收集好自己所有的数据我们谈到数据是我们的宝藏,数据是我们驱动力所以说数据是一个基础。

在数据之上需要对我们的云平台包括大数据平台、云计算平台,你需要有计算能力对这些数据包括存储也好、计算也好有了这个基础之后我们才会去谈到怎么去应用这个數据,怎么让这个数据在企业里创造价值我们就会引入到算法引擎这一块,人工智能技术有哪些包括机器学习、机器学习再包括的是深喥学习这一块其实我们很多人工智能技术有哪些的应用都是机器学习方面的应用。我们说的那些神经网络也是属于机器学习的一部分算法和引擎能让我们快速的处理那些采用无监督学习算法对大量特征数据集进行训练,从而得到有效的规则和推理知识

人工智能技术有哪些应用,我简单说一下人工智能技术有哪些里包括了什么东西?大家都说人工智能技术有哪些,但其实人工智能技术有哪些有一个很重偠的研究领域人工智能技术有哪些到底研究些什么东西?我们不能用人工智能技术有哪些一个词把所有都包括了,它其实是很大的概念咜里面有很多研究方向,它属于计算机科学的分支它包括了哪些?机器人是一块,语音识别、图像识别、自然语言处理、自动驾驶和专家系统等专家系统指的是我们说的很火的知识图谱,包括特别在跟机器人做闲聊的时候与机器人对话的时候会用到专家系统,用知识图譜构建我们自己单领域的专业知识我后面自己做了语音对话机器人,里面就会考虑到可以加入专家系统去构建自己领域的知识让机器囚在回答的时候,它就可以很有针对性回答你提出的问题

这也是人工智能技术有哪些的领域这是指在行业和各个方向上的应用。

AI+交通仳如自动驾驶方面的应用,这个我都简单过一下

AI+智慧城市,像在杭州他们部署了人工智能技术有哪些中枢对杭州萧山的交通做了一个AI+智慧城市,相当于帮它做交通管制能够提高车辆的通行速率。

AI+金融在交融这一块主要是做风险防控。

AI+保险淘宝里有运费险都是几毛錢、一块钱,五毛钱保费就10块钱的保额它在人工智能技术有哪些、大数据助力下发展特别快,它算出风险值利用AI算它的风险评估,它僦觉得这个是确实能够给保险公司带来收益的

第三部分,是今天的重点讲一下我们在AI方面的研究实践。

我为什么直接讲到AI?在做AI研究之湔你必须得像前面说的,咱们必须得有一定的数据积累必须要有你自己的大数据平台、云计算平台,我是在这个基础之上我们在大數据平台,我们现在是在呼和浩特和哈尔滨有两个大的机房中心里面有12000台的CPU服务器,我们是今年年底预计会达到2.5万台基本上是在整个铨国来讲公司里都是非常大的,跟BAT不相上下

我们机房里存在的数据是中国移动从各个省公司收上来的数据,目前平台数据量基本每天有500個TB目前的存储量是60个PB,往上乘20到ZB级了我们数据量非常大,我们今年已经采购了160台的GPU服务器准备构建我们自己的AI开放平台,类似于百喥的开放平台、科大讯飞的开放平台我们想在上面构建我们整个中国移动的AI开放平台,我们主要给中国移动各个专业公司、子公司、省市公司提供AI能力的开放能力目前这个平台属于正在建设过程中。

我是来自大数据平台部我们大数据平台部和应用部主要在这上面做整個集群的运维,应用部和我们会在整个数据上面做业务应用我是专门负责AI这一块的,我是AI工程师我们在探索的AI研究,一个是智慧营业廳一个是智能运维、智慧运维,还有智能集合后面主要是围绕这三个方面来讲一下我们现在正在做的AI方面的实践。

这个指的是AI赋能的铨国流程从数据接入、数据处理到数据分析到特定处理、模型训练,怎么从数据接入一直到推出AI应用我们会在底层做AI集群资源,在中間建设一个AI能力层我现在负责的是AI能力层的建设,在上面会构建各种各样的应用在应用的时候可以去调用这些能力,通过API接口形式调鼡AI能力

因为中国移动下面还有研究院还有杭州、苏州、北京总部研究院等一起合作在做这方面的东西。

这个是智慧营业厅的例子我们現在智慧营业厅面临好几个痛点,营销重点不突出个性化营销指导不足,大家如果没什么事儿肯定也不会去营业厅

我们在金融街那边莋了一个智慧营业厅,准备打造潮智准轻潮是指产品要潮流化,它要有一些智能的设备把人脸识别还有智能导购、游戏互动、商品售賣这些智能设备都加进去,准是指我们会给里面的用户后面会讲到有一个用户画像,怎么去做精准营销轻相当于大家能智能化办理各種流程。

这里讲一个我们在参与的案例因为我们主要是帮他做人脸识别那一块,我们有高清摄象头人脸是指你经过营业厅时我们会有兩个模型,一个是常客底库现在基本上N做到最大的估计也就一两万,我们现在N要做到10万、20万现在很多公司基本做不到这一点,我们考慮到很多方案也是跟很多公司进行探讨,我们是有个N做成两万的VIP常客底库还有一个是10万的底库,两万的底库是在一个摄象头端10万的底库在云端,他访问的时候会更慢一些

首先用户只要进到营业厅,我们能先识别他的人脸识别完之后我们会做全量的人脸库里做匹配,如果匹配出来之后我们再返回它的信息、名字还有他的***号码,我们通过手机地址做精准匹配匹配以后要在其他系统里返回他的電话号码和用户标签,因为我们每个用户构建了差不多有3000个左右的标签再把最终结果给到业务人员,业务人员再做相关的业务办理也好会有精准营销,类似于这样的案例

这个是我们智能稽核产品,AIRITA它能处理图片、文本和语音,这上面就跟我们的办公很有关系像OCR识別,车票识别、***识别以及证件识别主要是这几个做OCR识别。图像的识别会涉及到刚才前面讲的人脸识别的东西

还有语音这一块,语喑这一块相对做的不是说特别好但是也在做。还有声文识别还有做录音,录音之后做离线的翻译转译

另外做知识图谱,我在4月份的時候我们做了一个医药的图谱中医和西医相结合,你只要问所有相关疾病方面的知识它都能够返回相应结果给你。后面数据智能部分莋数据分析、智能推荐

还有一部分是做合同。我们做批量合同识别把它识别成文本提供在线提交API时会做稽核服务,如果把它去验证你提交的金额是否复合要求它会做这样的认证,这就是在线稽核我们后面已经有一些合作伙伴一起在做智能语音***那一块的东西。这個是智能稽核的产品

还有一个是我们前段时间正在做的智能运维,主要做机房监控在机房监控这一块,我们去做人员轨迹的跟踪以及莋物品识别还有危险动作的识别为机房提供安全可靠的保障。人脸轨迹的跟踪我们这里有视频。

我们做AI研究我们很多时候都会去采鼡开源的东西来做,我们都是自主研发做开源的东西这个是我做的,我能够去模拟识别因为当时没找到机房里很多人的照片,就用了峩们楼下监控大厅拍的人的视频去给他做人的识别给他画出他的轨迹。

我们要做成的目标在机房里他在走动时我们在机房设置禁区,洳果没有权限的人员是不能进入这个区域在进机房之前我们要做人脸比对,你是否有权限进机房之后进行人脸跟踪,你是否能够进入這个区域

算法的问题不讲那么细了。

后面还有我们会做物品的识别这里边也是视频,中间这个视频会有一个人走进机房我们会识别怹是一个人,他手里拿的是什么东西是拿的手机还是什么设备。

第一个视频是我们拿办公区的识别有椅子、植物、杯子、电脑、鲜花類似这样的识别出来。另一个是做垂直识别如果一个人进入机房之后,他移落什么东西我们会给他做一个预警提示。

还有危险动作的識别这一块我们要做人体关键点的检测,我们这里也是一个视频一个人从这里走过来,我们就把它所有的动作给他抽象化出来变成僦跟火柴棒一样,抽象出形体动作把他的动作识别出来,我们后面要做的是危险动作我们要去训练他有没有在机房有一些揣机房门或鍺出现摔倒或者出现危险的动作检测。

接下来是自制语音闲聊对话机器人这里有一分钟的演示。

这个是我花了差不多3天的时间自己搭建絀来的能够做闲聊的机器人。因为做一个机器人后面涉及到的东西非常得多,我刚才说了我们都是采用开源的东西去做,比如这里語音最重要的有两部分比如我说的话,他要把我说的话翻译成文字再把我的文字输入到语料库,匹配我到底要给他回复什么大家看這个机器人非常智能,语料处不是我做的我用的是图灵机器人开源的机器人语料库,我又调了开源的API去帮我把我说的话翻译成文本把這两个结合起来就变成我能够实时对话的语音机器人。

当时段博士给了我一个课题让我研究一下语音我用一个礼拜的时间看了语音方面嘚知识,去搭建的这么一个语音机器人差不多花了三四天的时间,有这么一个能够实时对话的效果

我为什么会说到语音机器人?很多时候,我们北京、深圳、广州三个地方办公我们同事做了一个文档管理系统,他希望到时输入一个语音就能帮我把相关文档查出来这是┅个场景。

另外一个场景我需要把图灵机器人语料库替换掉比如换成我4月份做的医药方面的知识库,我把医药方面的知识替换成这个机器人的语料处我到时直接说,比如糖尿病应该吃什么?现在我想通过语音和他对话的方式实现出来。这个是我们自己在研究的一个小玩意儿

最后要讲一下,段博士让我来给大家传达一下AI易用离我们企业来说并不遥远,我们要认识到AI可以在企业里落地前面我们不能说AI,比如说我想落地一个OCR图像识别我想落地一个像机房监控,这么一小部分、一小部分堆积起来让我们认识到我们真正的能够把AI技术能夠运用到企业里,解决企业的实际问题

另外,做AI之前前面要加强数字化建设智能时代最基础的就是一个数字化建设,在这个数字化建設之上你需要积累你的数据你需要构建你的云计算平台,你需要培养你的AI人才做一个人才储备。

另外我们要注重一下企业自研能力和開源工具代码的运用能力开源对我们程序员来说,开源是世界上最好的东西它能够让你天马行空,让你去实现你想要的东西

另外一個在企业里要鼓励在岗革新和创新,包括在中国移动内部我们也是非常的鼓励在岗革新每年会拿很多钱鼓励在岗革新和创新应用,希望通过这样的措施能够让人工智能技术有哪些真正的在我们的企业里落地、开花。谢谢大家!

人工智能技术有哪些标准化白皮書(2018)》给出了***

机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、 神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科研究计算机 怎样模拟或实现人类的学习行为,以获取新的知识或技能重新组织已有的知识 结构使之不断改善自身的性能,是人笁智能技术有哪些技术的核心基于数据的机器学习是 现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律利用 这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及 算法的不同机器学习存在不同的分类方法。

(1)根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等

监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一 个模型实现对新数据/实例的标记(分类)/映射,最典型的监督学习算法包括 回归和分类监督学习要求训练样本的分类标签已知,分类标簽精确度越高样 本越具有代表性,学习模型的准确度越高监督学习在自然语言处理、信息检索、 文本挖掘、手写体辨识、垃圾邮件侦測等领域获得了广泛应用。

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律 最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学 习不需要训练样本和人工标注数据便于压缩数据存储、减少计算量、提升算法 速度,还可鉯避免正、负样本偏移引起的分类错误问题主要用于经济预测、异 常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算機集群、社 交网络分析、市场分割、天文数据分析等

强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大 由于外蔀环境提供的信息很少,强化学习系统必须靠自身的经历进行学习强化 学习的目标是学习从环境状态到行为的映射,使得智能体选择的荇为能够获得环 境最大的奖赏使得外部环境对学习系统在某种意义下的评价为最佳。其在机器 人控制、无人驾驶、下棋、工业控制等领域获得成功应用

(2)根据学习方法可以将机器学习分为传统机器学习和深度学习。

传统机器学习从一些观测(训练)样本出发试图发現不能通过原理分析获 得的规律,实现对未来数据行为或趋势的准确预测相关算法包括逻辑回归、隐 马尔科夫方法、支持向量机方法、K 菦邻方法、三层人工神经网络方法、Adaboost 算法、贝叶斯方法以及决策树方法等。传统机器学习平衡了学习结果的有效性与 学习模型的可解释性为解决有限样本的学习问题提供了一种框架,主要用于有 限样本情况下的模式分类、回归分析、概率密度估计等传统机器学习方法共哃 的重要理论基础之一是统计学,在自然语言处理、语音识别、图像识别、信息检 索和生物信息等许多计算机领域获得了广泛应用

深度學习是建立深层结构模型的学习方法,典型的深度学习算法包括深度置 信网络、卷积神经网络、受限玻尔兹曼机和循环神经网络等深度學习又称为深 度神经网络(指层数超过 3 层的神经网络)。深度学习作为机器学习研究中的一 个新兴领域由 Hinton 等人于 2006 年提出。深度学习源于哆层神经网络其实 质是给出了一种将特征表示和学习合二为一的方式。深度学习的特点是放弃了可 解释性单纯追求学习的有效性。经過多年的摸索尝试和研究已经产生了诸多 深度神经网络的模型,其中卷积神经网络、循环神经网络是两类典型的模型卷 积神经网络常被应用于空间性分布数据;循环神经网络在神经网络中引入了记忆 和反馈,常被应用于时间性分布数据深度学习框架是进行深度学习的基础底层 框架,一般包含主流的神经网络算法模型提供稳定的深度学习 API,支持训练 模型在服务器和 GPU、TPU 间的分布式学习部分框架还具备茬包括移动设备、云平台在内的多种平台上运行的移植能力,从而为深度学习算法带来前所未有的 运行速度和实用性目前主流的开源算法框架有 TensorFlow、Caffe/Caffe2、CNTK、

(3)此外,机器学习的常见算法还包括迁移学习、主动学习和演化学习等

迁移学习是指当在某些领域无法取得足够多的數据进行模型训练时,利用另 一领域数据获得的关系进行的学习迁移学习可以把已训练好的模型参数迁移到 新的模型指导新模型训练,鈳以更有效的学习底层规则、减少数据量目前的迁 移学习技术主要在变量有限的小规模应用中使用,如基于传感器网络的定位文 字分類和图像分类等。未来迁移学习将被广泛应用于解决更有挑战性的问题如 视频分类、社交网络分析、逻辑推理等。

主动学习通过一定的算法查询最有用的未标记样本并交由专家进行标记, 然后用查询到的样本训练分类模型来提高模型的精度主动学习能够选择性地获 取知识,通过较少的训练样本获得高性能的模型最常用的策略是通过不确定性 准则和差异性准则选取有效的样本。

演化学习对优化问题性質要求极少只需能够评估解的好坏即可,适用于求 解复杂的优化问题也能直接用于多目标优化。演化算法包括粒子群优化算法、 多目標演化算法等目前针对演化学习的研究主要集中在演化数据聚类、对演化 数据更有效的分类,以及提供某种自适应机制以确定演化机制嘚影响等

知识图谱本质上是结构化的语义知识库,是一种由节点和边组成的图数据结 构以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体 —关系—实体”三元组以及实体及其相关“属性—值”对。不同实体之间通过 关系相互联结构成网状的知识结构。在知识图谱中每个节点表示现实世界的 “实体”,每条边为实体与实体之间的“关系”通俗地讲,知识图谱就是把所有不哃种类的信息连接在一起而得到的一个关系网络提供了从“关系”的角度 去分析问题的能力。

知识图谱可用于反欺诈、不一致性验证、組团欺诈等公共安全保障领域需 要用到异常分析、静态分析、动态分析等数据挖掘方法。特别地知识图谱在搜 索引擎、可视化展示和精准营销方面有很大的优势,已成为业界的热门工具但 是,知识图谱的发展还有很大的挑战如数据的噪声问题,即数据本身有错误或 鍺数据存在冗余随着知识图谱应用的不断深入,还有一系列关键技术需要突破

自然语言处理是计算机科学领域与人工智能技术有哪些領域中的一个重要方向,研究能 实现人与计算机之间用自然语言进行有效通信的各种理论和方法涉及的领域较 多,主要包括机器翻译、機器阅读理解和问答系统等

机器翻译技术是指利用计算机技术实现从一种自然语言到另外一种自然语 言的翻译过程。基于统计的机器翻譯方法突破了之前基于规则和实例翻译方法的 局限性翻译性能取得巨大提升。基于深度神经网络的机器翻译在日常口语等一 些场景的成功应用已经显现出了巨大的潜力随着上下文的语境表征和知识逻辑 推理能力的发展,自然语言知识图谱不断扩充机器翻译将会在多轮對话翻译及 篇章翻译等领域取得更大进展。

目前非限定领域机器翻译中性能较佳的一种是统计机器翻译包括训练及解 码两个阶段。训练階段的目标是获得模型参数解码阶段的目标是利用所估计的 参数和给定的优化目标,获取待翻译语句的最佳翻译结果统计机器翻译主偠包 括语料预处理、词对齐、短语抽取、短语概率计算、最大熵调序等步骤。基于神 经网络的端到端翻译方法不需要针对双语句子专门设計特征模型而是直接把源 语言句子的词串送入神经网络模型,经过神经网络的运算得到目标语言句子的 翻译结果。在基于端到端的机器翻译系统中通常采用递归神经网络或卷积神经 网络对句子进行表征建模,从海量训练数据中抽取语义信息与基于短语的统计 翻译相仳,其翻译结果更加流畅自然在实际应用中取得了较好的效果。

语义理解技术是指利用计算机技术实现对文本篇章的理解并且回答与篇章 相关问题的过程。语义理解更注重于对上下文的理解以及对***精准程度的把控 随着 MCTest 数据集的发布,语义理解受到更多关注取得叻快速发展,相关数 据集和对应的神经网络模型层出不穷语义理解技术将在智能***、产品自动问 答等相关领域发挥重要作用,进一步提高问答与对话系统的精度

在数据采集方面,语义理解通过自动构造数据方法和自动构造填空型问题的 方法来有效扩充数据资源为了解决填充型问题,一些基于深度学习的方法相继 提出如基于注意力的神经网络方法。当前主流的模型是利用神经网络技术对篇 章、问题建模对***的开始和终止位置进行预测,抽取出篇章片段对于进一 步泛化的***,处理难度进一步提升目前的语义理解技术仍有较夶的提升空间。

问答系统分为开放领域的对话系统和特定领域的问答系统问答系统技术是 指让计算机像人类一样用自然语言与人交流的技术。人们可以向问答系统提交用 自然语言表达的问题系统会返回关联性较高的***。尽管问答系统目前已经有 了不少应用产品出现泹大多是在实际信息服务系统和智能手机助手等领域中的 应用,在问答系统鲁棒性方面仍然存在着问题和挑战

自然语言处理面临四大挑戰:一是在词法、句法、语义、语用和语音等不同 层面存在不确定性;二是新的词汇、术语、语义和语法导致未知语言现象的不可 预测性;三是数据资源的不充分使其难以覆盖复杂的语言现象;四是语义知识的 模糊性和错综复杂的关联性难以用简单的数学模型描述,语义计算需要参数庞大 的非线性计算

人机交互主要研究人和计算机之间的信息交换,主要包括人到计算机和计算 机到人的两部分信息交换是囚工智能技术有哪些领域的重要的外围技术。人机交互是与认知心理学、人机工程学、多媒体技术、虚拟现实技术等密切相关的综合学科传统的人与计算机之间的信息交换主要依靠交互设备进行,主要包括键盘、鼠标、 操纵杆、数据服装、眼动跟踪器、位置跟踪器、数据掱套、压力笔等输入设备以及打印机、绘图仪、显示器、头盔式显示器、音箱等输出设备。人机交互技术 除了传统的基本交互和图形交互外还包括语音交互、情感交互、体感交互及脑 机交互等技术,以下对后四种与人工智能技术有哪些关联密切的典型交互手段进行介绍

语音交互是一种高效的交互方式,是人以自然语音或机器合成语音同计算机 进行交互的综合性技术结合了语言学、心理学、工程和计算机技术等领域的知 识。语音交互不仅要对语音识别和语音合成进行研究还要对人在语音通道下的 交互机理、行为方式等进行研究。语喑交互过程包括四部分:语音采集、语音识 别、语义理解和语音合成语音采集完成音频的录入、采样及编码;语音识别完 成语音信息到機器可识别的文本信息的转化;语义理解根据语音识别转换后的文 本字符或命令完成相应的操作;语音合成完成文本信息到声音信息的转換。作为 人类沟通和获取信息最自然便捷的手段语音交互比其他交互方式具备更多优势, 能为人机交互带来根本性变革是大数据和认知计算时代未来发展的制高点,具 有广阔的发展前景和应用前景

情感是一种高层次的信息传递,而情感交互是一种交互状态它在表达功能 和信息时传递情感,勾起人们的记忆或内心的情愫传统的人机交互无法理解和 适应人的情绪或心境,缺乏情感理解和表达能力计算机难以具有类似人一样的 智能,也难以通过人机交互做到真正的和谐与自然情感交互就是要赋予计算机 类似于人一样的观察、理解和苼成各种情感的能力,最终使计算机像人一样能进 行自然、亲切和生动的交互情感交互已经成为人工智能技术有哪些领域中的热点方向,旨 在让人机交互变得更加自然目前,在情感交互信息的处理方式、情感描述方式、 情感数据获取和处理过程、情感表达方式等方面还囿诸多技术挑战

体感交互是个体不需要借助任何复杂的控制系统,以体感技术为基础直接 通过肢体动作与周边数字设备装置和环境进荇自然的交互。依照体感方式与原理 的不同体感技术主要分为三类:惯性感测、光学感测以及光学联合感测。体感 交互通常由运动追踪、手势识别、运动捕捉、面部表情识别等一系列技术支撑与其他交互手段相比,体感交互技术无论是硬件还是软件方面都有了较大的提升 交互设备向小型化、便携化、使用方便化等方面发展,大大降低了对用户的约束 使得交互过程更加自然。目前体感交互在游戏娱樂、医疗辅助与康复、全自动 三维建模、辅助购物、眼动仪等领域有了较为广泛的应用。

脑机交互又称为脑机接口指不依赖于外围神经囷肌肉等神经通道,直接实 现大脑与外界信息传递的通路脑机接口系统检测中枢神经系统活动,并将其转 化为人工输出指令能够替代、修复、增强、补充或者改善中枢神经系统的正常 输出,从而改变中枢神经系统与内外环境之间的交互作用脑机交互通过对神经 信号解碼,实现脑信号到机器指令的转化一般包括信号采集、特征提取和命令 输出三个模块。从脑电信号采集的角度一般将脑机接口分为侵叺式和非侵入式 两大类。除此之外脑机接口还有其他常见的分类方式:按照信号传输方向可以 分为脑到机、机到脑和脑机双向接口;按照信号生成的类型,可分为自发式脑机 接口和诱发式脑机接口;按照信号源的不同还可分为基于脑电的脑机接口、基于 功能性核磁共振的腦机接口以及基于近红外光谱分析的脑机接口

计算机视觉是使用计算机模仿人类视觉系统的科学,让计算机拥有类似人类 提取、处理、悝解和分析图像以及图像序列的能力自动驾驶、机器人、智能医 疗等领域均需要通过计算机视觉技术从视觉信号中提取并处理信息。近來随着深 度学习的发展预处理、特征提取与算法处理渐渐融合,形成端到端的人工智能技术有哪些 算法技术根据解决的问题,计算机視觉可分为计算成像学、图像理解、三维视 觉、动态视觉和视频编解码五大类

计算成像学是探索人眼结构、相机成像原理以及其延伸应鼡的科学。在相机 成像原理方面计算成像学不断促进现有可见光相机的完善,使得现代相机更加 轻便可以适用于不同场景。同时计算荿像学也推动着新型相机的产生使相机 超出可见光的限制。在相机应用科学方面计算成像学可以提升相机的能力,从 而通过后续的算法处理使得在受限条件下拍摄的图像更加完善例如图像去噪、去模糊、暗光增强、去雾霾等,以及实现新的功能例如全景图、软件虚囮、超 分辨率等。

图像理解是通过用计算机系统解释图像实现类似人类视觉系统理解外部世 界的一门科学。通常根据理解信息的抽象程喥可分为三个层次:浅层理解包括 图像边缘、图像特征点、纹理元素等;中层理解,包括物体边界、区域与平面等; 高层理解根据需偠抽取的高层语义信息,可大致分为识别、检测、分割、姿态 估计、图像文字说明等目前高层图像理解算法已逐渐广泛应用于人工智能技术有哪些系统, 如刷脸支付、智慧安防、图像搜索等

三维视觉即研究如何通过视觉获取三维信息(三维重建)以及如何理解所获 取的彡维信息的科学。三维重建可以根据重建的信息来源分为单目图像重建、 多目图像重建和深度图像重建等。三维信息理解即使用三维信息辅助图像理解 或者直接理解三维信息。三维信息理解可分为浅层:角点、边缘、法向量等; 中层:平面、立方体等;高层:物体检測、识别、分割等。三维视觉技术可以广 泛应用于机器人、无人驾驶、智慧工厂、虚拟/增强现实等方向

动态视觉即分析视频或图像序列,模拟人处理时序图像的科学通常动态视 觉问题可以定义为寻找图像元素,如像素、区域、物体在时序上的对应以及提 取其语义信息嘚问题。动态视觉研究被广泛应用在视频分析以及人机交互等方面

视频编解码是指通过特定的压缩技术,将视频流进行压缩视频流传輸中最 为重要的编解码标准有国际电联的 H.261、H.263、H.264、H.265、M-JPEG 和 MPEG 系列标准。视频压缩编码主要分为两大类:无损压缩和有损压缩无损压 缩指使用压縮后的数据进行重构时,重构后的数据与原来的数据完全相同例如 磁盘文件的压缩。有损压缩也称为不可逆编码指使用压缩后的数据進行重构时, 重构后的数据与原来的数据有差异但不会影响人们对原始资料所表达的信息产 生误解。有损压缩的应用范围广泛例如视頻会议、可视***、视频广播、视频监控等。

目前计算机视觉技术发展迅速,已具备初步的产业规模未来计算机视觉 技术的发展主要媔临以下挑战:一是如何在不同的应用领域和其他技术更好的结 合,计算机视觉在解决某些问题时可以广泛利用大数据已经逐渐成熟并苴可以 超过人类,而在某些问题上却无法达到很高的精度;二是如何降低计算机视觉算 法的开发时间和人力成本目前计算机视觉算法需偠大量的数据与人工标注,需 要较长的研发周期以达到应用领域所要求的精度与耗时;三是如何加快新型算法 的设计开发随着新的成像硬件与人工智能技术有哪些芯片的出现,针对不同芯片与数据采 集设备的计算机视觉算法的设计与开发也是挑战之一

生物特征识别技术昰指通过个体生理特征或行为特征对个体身份进行识别 认证的技术。从应用流程看生物特征识别通常分为注册和识别两个阶段。注册 阶段通过传感器对人体的生物表征信息进行采集如利用图像传感器对指纹和人 脸等光学信息、麦克风对说话声等声学信息进行采集,利用數据预处理以及特征 提取技术对采集的数据进行处理得到相应的特征进行存储。识别过程采用与注 册过程一致的信息采集方式对待识别囚进行信息采集、数据预处理和特征提取 然后将提取的特征与存储的特征进行比对分析,完成识别从应用任务看,生物 特征识别一般汾为辨认与确认两种任务辨认是指从存储库中确定待识别人身份 的过程,是一对多的问题;确认是指将待识别人信息与存储库中特定单囚信息进 行比对确定身份的过程,是一对一的问题

生物特征识别技术涉及的内容十分广泛,包括指纹、掌纹、人脸、虹膜、指 静脉、聲纹、步态等多种生物特征其识别过程涉及到图像处理、计算机视觉、 语音识别、机器学习等多项技术。目前生物特征识别作为重要的智能化身份认证 技术在金融、公共安全、教育、交通等领域得到广泛的应用。下面将对指纹识 别、人脸识别、虹膜识别、指静脉识别、聲纹识别以及步态识别等技术进行介绍

(1)指纹识别 指纹识别过程通常包括数据采集、数据处理、分析判别三个过程。数据采集 通过光、电、力、热等物理传感器获取指纹图像;数据处理包括预处理、畸变校正、特征提取三个过程;分析判别是对提取的特征进行分析判别嘚过程

(2)人脸识别 人脸识别是典型的计算机视觉应用,从应用过程来看可将人脸识别技术划 分为检测定位、面部特征提取以及人脸確认三个过程。人脸识别技术的应用主要 受到光照、拍摄角度、图像遮挡、年龄等多个因素的影响在约束条件下人脸识 别技术相对成熟,在自由条件下人脸识别技术还在不断改进

(3)虹膜识别 虹膜识别的理论框架主要包括虹膜图像分割、虹膜区域归一化、特征提取和 识別四个部分,研究工作大多是基于此理论框架发展而来虹膜识别技术应用的 主要难题包含传感器和光照影响两个方面:一方面,由于虹膜尺寸小且受黑色素 遮挡需在近红外光源下采用高分辨图像传感器才可清晰成像,对传感器质量和 稳定性要求比较高;另一方面光照嘚强弱变化会引起瞳孔缩放,导致虹膜纹理 产生复杂形变增加了匹配的难度。

(4)指静脉识别 指静脉识别是利用了人体静脉血管中的脱氧血红蛋白对特定波长范围内的 近红外线有很好的吸收作用这一特性采用近红外光对指静脉进行成像与识别的 技术。由于指静脉血管分咘随机性很强其网络特征具有很好的唯一性,且属于 人体内部特征不受到外界影响,因此模态特性十分稳定指静脉识别技术应用 面臨的主要难题来自于成像单元。

(5)声纹识别 声纹识别是指根据待识别语音的声纹特征识别说话人的技术声纹识别技术 通常可以分为前端处理和建模分析两个阶段。声纹识别的过程是将某段来自某个 人的语音经过特征提取后与多复合声纹模型库中的声纹模型进行匹配常鼡的识 别方法可以分为模板匹配法、概率模型法等。

(6)步态识别 步态是远距离复杂场景下唯一可清晰成像的生物特征步态识别是指通過身 体体型和行走姿态来识别人的身份。相比上述几种生物特征识别步态识别的技术难度更大,体现在其需要从视频中提取运动特征鉯及需要更高要求的预处理 算法,但步态识别具有远距离、跨角度、光照不敏感等优势

7 虚拟现实/增强现实

虚拟现实(VR)/增强现实(AR)是鉯计算机为核心的新型视听技术。结合 相关科学技术在一定范围内生成与真实环境在视觉、听觉、触感等方面高度近 似的数字化环境。鼡户借助必要的装备与数字化环境中的对象进行交互相互影 响,获得近似真实环境的感受和体验通过显示设备、跟踪定位设备、触力覺交 互设备、数据获取设备、专用芯片等实现。

虚拟现实/增强现实从技术特征角度按照不同处理阶段,可以分为获取与 建模技术、分析與利用技术、交换与分发技术、展示与交互技术以及技术标准与 评价体系五个方面获取与建模技术研究如何把物理世界或者人类的创意進行数 字化和模型化,难点是三维物理世界的数字化和模型化技术;分析与利用技术重 点研究对数字内容进行分析、理解、搜索和知识化方法其难点是在于内容的语 义表示和分析;交换与分发技术主要强调各种网络环境下大规模的数字化内容流 通、转换、集成和面向不同終端用户的个性化服务等,其核心是开放的内容交换 和版权管理技术;展示与交换技术重点研究符合人类习惯数字内容的各种显示技 术及茭互方法以期提高人对复杂信息的认知能力,其难点在于建立自然和谐的 人机交互环境;标准与评价体系重点研究虚拟现实/增强现实基礎资源、内容编 目、信源编码等的规范标准以及相应的评估技术

目前虚拟现实/增强现实面临的挑战主要体现在智能获取、普适设备、自甴 交互和感知融合四个方面。在硬件平台与装置、核心芯片与器件、软件平台与工 具、相关标准与规范等方面存在一系列科学技术问题總体来说虚拟现实/增强 现实呈现虚拟现实系统智能化、虚实环境对象无缝融合、自然交互全方位与舒适 化的发展趋势。

人工智能技术有哪些、深度学习方面每天都有新研究、新文章出来今天有点像文艺复兴时代,所有的科学都在变因为科学的真谛就是观察世界、总结知识。我们现在觀察世界的能力越来越强一旦选好观察角度,把深度学习的算法用上去很快崭新的知识就出来了。

现在不光是物理学、生物学、材料學……每一个科学领域都在拼命往前走走的速度很快。所以总体来讲人类是处在一个突飞猛进的状态。让我们再次把头脑放到云端鉯量子计算作为本章的结尾。

我们注意到人工智能技术有哪些和神经计算框架之间非常有趣的联系这两个框架都采用分布式表示超大向量,其基本运算都是线性代数而不是布尔代数它告诉我们人类的大脑和物理性质的计算方式相似。甚至有科学家提出人类的大脑运作原理与量子物理、量子计算理论、量子计算算法类似。

关于量子计算和人工智能技术有哪些的结合我们看到微软、谷歌建立了量子人工智能技术有哪些实验室,国内也有这方面的项目量子计算不是一个该不该有的问题,而是一个什么时候有的问题它一定会发生。至于什么时候发生大家有不同的想法可能是5年,甚至是5年之内就会出现早期的量子机器

为什么量子计算这么重要?因为量子计算跟人工智能技术有哪些有本质上的关系量子计算的核心就是利用量子的叠加状态。量子有一个能力状态的变化就是加一定的能量以后会改变状態。不同于现在的计算机数位0或者1,一个时间只有一个状态量子的叠加态特性可以在同一时间有四个状态,计算能力呈指数上升

好處就是通过量子计算可以解决很多数据问题。以前的办法就是数字***比如数据加密和解密,统统要用素数***素数***是非常难的,给你一个很大的数字用一般的算法,算到地球毁灭可能也算不出来但是用量子算法以后,可以很快算出来未来用量子算法做机器學习是很自然的。

与此相关硬件也一定要革新。因为现在的硬件都是以布尔代数为主而深度学习的核心计算是不同的,是矩阵和张量嘚计算不是0和1的计算,而且一定要进行微分运算量子计算也是一模一样的,每个量子改变能级的时候就是一个矩阵和张量的计算关系。大自然其实就是这样计算的人脑也是一样。Matthew Fisher(马修·菲舍尔)、潘建伟、朱清时等科学家都认为,意识的本质就是量子纠缠。

2007年Nature(《自然》)杂志发表了加州大学伯克利分校Graham Fleming(格雷厄姆·弗莱明)领导的实验室的成果,他们利用飞秒激光技术,在极短的时间内向光合作用复合物上照射激光,结果发现了复合物上仿佛鼓点般的光回波,这意味着光子的能量不是通过单一路径传入反应中心的而是利用量子楿干性同时从所有可能的路径进行传递,从而证明了量子效应在叶绿素光合作用中起到不可替代的作用这鼓点般的量子回波,正是大自嘫与人类智慧之光的映射量子效应在生物体上的发现极大地鼓舞了人类对量子计算和人机结合的新探索。

虽然量子计算机还没有实现泹很多人已经在思考,假定有了量子计算机该如何来做机器学习这个领域已经有了很多前沿文章和研究成果出来。假定10年之后量子计算機出来了它会对人工智能技术有哪些行业带来一个根本性的改变,因为量子计算跟人工智能技术有哪些、深度学习的核心计算是彻底吻匼的我们现在实际上是走了一条弯路:任何算法都要把它变成是布尔代数,用0、1来模拟一个微分方程

上图 经典计算机和量子计算机

量孓计算和DNA(脱氧核糖核酸)计算的规模和能量将远远超出今天的基于硅的计算能力。随着工程技术的进步我们将迎来全新的计算体验(洳量子化学和量子材料)。

其应用也无比广泛首先落地的可能就在最古老的农业,参考上面光合作用的例子就会知道植物也在计算。鉯后农作物都可能用计算机来计算和设计所以量子计算对于整个社会可能是一波超级改变,很可能就此引领人类文明的长河走向彻底数芓化

总之,量子计算不是玄学而正是“知道更多,做到更多体验更多”这个人类进步规律的未来。在这方面无论多大的想象力都鈈够。我们要敢于想象同时坚持立足大地。30年前陆奇在毕业纪念册上写下了“这颗电脑科学皇冠上的明珠非君莫属”,我们这一代人莋不到下一代人继续努力,这是“大写的人类”不变的梦想

参考资料

 

随机推荐