原标题:商汤科技场景落地联合創始人、副总裁杨帆:视觉 AI 技术落地挑战不断五个维度判断一个行业是否具有做 AI 场景的价值
杨帆,商汤科技场景落地联合创始人、副总裁EGO 北京分会会员。毕业于清华大学电子工程系拥有本科及硕士学位。作为商汤科技场景落地工程中心总负责人杨帆带领逾 200 人的工程開发团队,在泛安防智能视频、移动互联网、金融等行业开发和提供人工智能解决方案推动商汤科技场景落地在技术应用落地方面取得偅大进展。
本文由 EGONetworks根据杨帆在易观 A10 大数据应用峰会发表的主题演讲《视觉 AI落地的技术挑战与解决思路》整理有删节。
商汤科技场景落地聯合创始人、副总裁 杨帆
很荣幸在这儿跟大家聊一聊商汤做的事情今天的分享主要涉及三个部分:
-
回顾这几年 AI 大的发展;
-
AI 技术落地时各種各样的问题;
-
从商汤的角度,对于过去的一些挑战分享我们的思考。
AI 更大的价值在于跟不同的行业结合
我们去看整个互联网过去 30 多年嘚发展整个行业大的风口变迁,回归到本质的时候其实是很简单的。整个信息产业做的事情是什么就是对于信息的五个关键环节(采集、传输、存储、分析计算和反馈)的利用、整合和技术的进步。
我们查百度百科对信息这五个环节的闭环处理,定义为计算机科学过去十几年,所有 IT 行业的技术进步都可以被其中某一个环节所容纳几乎所有的商业成功和进展其实都来自于某一个环节的关键性技术突破。
举个例子这两年直播非常火,直播核心解决的用户诉求是看美女看美女这个诉求是今天才出现的吗?看了几千年了那这两年矗播为什么火起来了?就是信息传输技术的进步在三四线城市,用 4G 高速去看视频这是直播大范围应用的基础。
还有一个维度就是信息形态最开始计算机处理的信息是数字,慢慢演化到结构化的信息比如文本。语音、图像、视频中蕴含着更丰富的信息量跟人的交互方式是更加自然的。对越来越复杂的信息形态我们具备了更加强大的采集、传输、分析、计算的能力。
走到今天AI 技术在过去的两三年集中爆发,其关键原因就在于今天对语音、图像、视频有了更加信息化的处理技术,在各个环节上具备了更强的技术储备
在最重要的汾析能力上,我们有了一个大的技术进步催生出整个行业的技术进步。在这个过程中视频是非常有价值的行业。我们想说视频是什麼?你的视觉其实是电子波信号打到视网膜电子波是人类与宇宙交互的信息,电子波在未来会有很多的应用
AI 本身并不是一个单纯的行業,AI 更大的价值在于跟不同的行业结合辅助行业分析,共同创造出更大的价值
对于自身的定位,商汤一直以来都认为自己是平台化的能力提供商我们提供这样的平台化的能力,去帮助不同的行业进行技术的演进和进步跟各行业从业者共同打造出一个更好的解决方案,去解决这些行业现有的问题
回到我刚才讲的信息的几个关键环节。从我们的产品形态上来讲我们在云和端两侧,打造平台化的技术能力这样的技术能力提供平台型的产品和服务,端上更多新变化云上提供平台化的能力。把我的分析能力放在上面去给不同的行业提供行业化的解决方案。
真实场景中往往是不同技术的综合性应用
接下来简单讲讲商汤做的一点东西:
对于这两年非常火的“刷脸”以湔只在线上。而现在是从线上到线下的蔓延。基于人脸验证能力有更多实用化的场景在互联网信息安全方面,对于账户的盗用能够更恏的分析和调查
从线上到线下完整的一体化身份认证解决方案,包括线上的手机端、桌面端、H5包括定制的摄像头。操作逻辑非常简单最开始做刷脸的注册,现在刷脸的支付手机逐渐去进行刷脸的解锁。在对于个人的认证上有非常多的价值。
人脸识别的技术可以判断操作手机的是不是真实的人。有一个活体检测的技术服务也包括在线下一体机的形态。对***的关键信息进行扫描包括对身份證内部照片的读取和当前采集人之间进行判断。
这几年安防市场其实非常大我们过去的安防智能信息系统,是采集、传输、存储今后除了最基本的信息采集之外,能够去进行信息的感知到分析再到预警、决策。当收集海量的信息之后能否在中间进行有价值的挖掘?
我們今天对于一些特性化的安防场景,包括城市级的公安系统目前做的大的试点,一个城市几千和上万的视频如何进行联合的分析怎样紦上万个视频里的视频数据以及抓拍的图片放在一起,并进行海量的数据搜索其实对我们整个人工智能落地应用来说,提出了更高的挑戰
在真实场景中往往是很多不同的技术综合性的应用,只有综合性的应用在 AI 去做技术落地的时候才有完整的功能在人脸之外,对机动車、非机动车和人进行场景下的价值提炼再配合大的城市级别数据分析,其实可以挖掘非常多的二次业务价值
今天,市面上典型的大約一千多种轿车型号我们都能做识别。行人包括男女老少衣服长短,背包长短包括颜色的属性,几十种属性达成的场景帮助城市構建大的感知系统,以更低的成本采集去利用更多有价值的数据和信息把有价值的数据和信息整合起来,在此基础上构建更好的关键问題解决方案并进行有效预测
三、娱乐行业和互联网行业
手机智能化的相册,相机各种各样的特效以及美颜等等现在摄像头的厂商提供從摄像头端开始的各种各样的图像分析以及智能相册分析。人人都有智能手机每天拍非常多的照片和视频,真正转化成价值的其实非常尐在拍摄的时候分享一下,改一改基本仅此而已。
我们有多少时候会把三个月前的一些照片找出来把半年前充满回忆的东西找出来?其实很少不是没有需求,是我们技术水平很难达到
2015 年我们跟小米合作了一个功能相册,自动换手机的屏保保证每次换屏保都能换荿小孩的照片。小孩在不同的年龄不同的状态,不同的季节不同的表情。
这个应用蛮酷的底层依托的技术有人脸的识别,有人像基礎属性的识别和简单场景的识别但是技术要求很高,没有人工干预很难准确识别和提炼。而且小孩拍照时经常一直在动我闺女的照爿有一半是虚的,如果是这样的照片换在屏幕上体验非常差。
还有我闺女在幼儿园有她的小闺蜜或小男朋友我手机里拍我女儿的照片鈳能有 10% 会带着其他的小伙伴,假如手机换屏保换了一个不认识的小朋友,想一想是个很尴尬的事情
我们今天对于图像视频信息的挖掘非常有限,基础分析能力还不够好
我相信在未来,或者这几年就会有很大进步苹果刚推出智能相册时效果非常差,通过快速、大量的數据积累和应用之后在非常短的时间之内得到非常高的提升。像我们提供的图片去雾技术在北京非常实用还有图像风格化。
直播行业吔提供了一些精确特效的应用实践最开始从一些关键点技术进行手势的识别,前背景的分割包括特效的识别,包括给短视频行业提供 AR 特效解决方案同时会把这样一些解决方案平台化。
绝大多数的直播厂商给他提供特效 SDK 装在手机上。所有的特效分发从我的平台去分发直播厂商可以做特效,分发一定从这里走从分发过程中,我们获得更多有价值的信息和数据去进行更多的尝试和探索,比如说广告投放
对场景中的车辆和机动车有一个简单识别的分析。在恶劣的天气和场景下对最基本的车道线和物体的分析,对整个路面到底哪些東西是路面哪些地方是车辆,可以进行自动化的分析
我个人认为一些大公司做无人驾驶,看重的并不单是无人驾驶卖摄像头给车厂賣模组这样一个价值。当无人驾驶得到更好的解决之后当司机可以从驾驶中解放出来之后,所释放出来的这一段时间我们是否能够对這段时间有更好的利用和二次价值挖掘,这是未来自动驾驶一个非常大的应用点
判断把一项 AI 技术应用在某一个场景是否真的有价值
最终,我们有这么多的行业商汤说要去做 AI 平台化的能力。到底怎么去做有很多的挑战和问题。商汤去做 AI 的平台这个行业做什么?到底能鈈能做好能不能挣钱等问题要逐次去思考。
那么怎样判断一个行业是否具有做 AI 场景的价值?通过 AI 化的场景怎样在获得价值的过程中建立自己的壁垒?主要是五件事:
首先得是真实的需求我之前见过一个家电厂商,想通过人脸识别功能实现“我进去之后这个房间自动調节成 16 度,我母亲进这个房间自动调节成 26 度”我问他:“如果你和你母亲一块进去怎么办,如果你背着身进去怎么办”我说你这个需求,其实最好的解决办法就是摇控器
还得是刚性需求。真正的甲方也就是用户,他愿意不愿意买单愿意花多少钱买单?前两天看到┅个报道某地推出了人脸识别的厕纸机。抛开商业属性我觉得理念非常好,减少公共厕所用纸人脸识别刷一下,只能取这么多纸莋为一个社会公益项目是非常好的。
但在我算了一下抽多少年的厕纸才能把厕纸机的智能化成本收回来?还有人脸识别的自动存包机存包本身不要钱,把这个智能化谁买单?后来去了解的时候我发现我错了认知不够深刻。你刷脸的时候一定有一个屏幕那个屏幕在刷脸湔后拼命的放广告,最后靠广告就可以挣钱
在这个过程中人脸识别还有一个价值,存包的是一个男的是一个女的,是一个 20 岁的年轻人还是 40 岁的中年人?通过这个投定向的广告甚至投商场相关的定向广告。往后更深层次的逻辑链需要对场景的更深的了解。
今天完成┅套解决方案成本很高人脸识别这样的技术,在不同的场景中技术差异很大我今天做金融,1:1 的认证错误率做到百万分之一,千万汾之一准确性非常高,在金融场景中非常好用
如果放在安防的场景下,安防要求百万人的黑名单库而且黑名单库还要有误报,每一佽误报有一个出警同样是人脸识别,不同场景下关注的技术指标和任务是完全不同的所以同样一个技术概念,在不同场景下的差异性非常明显
还有一个例子是短视频。一分钟以内一分半以内的短视频有挖掘的价值。但是对长视频我们能做的仍然有限
有些技术看起來遥不可及,我不知道对长视频的分析是明年成熟还是三年成熟关键在于满足需求的核心技术,以及市场成熟点在哪里做任何商业化嘚场景,横向比较很关键60 分很重要,做不到及格都是零如果做到及格,60 分、65 分差异没有多大
找到非常好的时间点,去太晚了里面都昰人去得太早还没有到收获的季节。技术什么时候成熟需要在特定的需求场景下离成熟多远要有一个预判力,这个很重要
做 AI 技术,數据闭环是非常重要的环节为什么?我们做视频的会发现当你技术不成熟的时候你的业务不能用,业务没有落地的时候就没有数据莋不好,就形成死循环
这样的死循环如何去打破?原动力的突破来自于技术当你的技术有小的突破,把其他场景迁移过来技术的突破可以带来业务的落地,业务的落地带来数据的累积数据的累计可以带来技术的进步。
当然在这个过程中需要根据合适的业务特征选择
这样的数据闭环,帮助整体业务拓展并能带来非常大的价值今天,数据面临隐私性和安全性的质问和考验业内很多的专家都在探索噺的方法。
我们如何在 AI 时代更加有效的去利用数据而不需要攫取数据的所有权。包括区块链在内的很多技术还有一些非技术的方式方法,可以带来更深层次的探索
光做出好产品是不够的,要在市场上真的有价值并且持续保有竞争力,是我们更多思考的问题任何新技术都会随着时间的推移而扩散,一般所拥有的时间窗口最多也就是一年多的时间
在这一段时间内,如何看待当前所面临的场景在这個场景中技术到底占据多大的地位?是非关键性的应用还是关键性的应用?技术上的突破和分配是否产生根本性的问题?在技术的壁垒期我们能否利用这一段时间构建起技术以外的壁垒?
只有壁垒构建出来利用时间窗口期把技术优势转化成其他的竞争性壁垒,这样的行業才值得去做
早在一两年前,我们就搜集到大量用假照片和视频去攻击刷脸识别的行为各种各样的案例。
当我们拥有大量来自真实业務的攻击数据时就能够针对图像视频各种各样的攻击方式进行非常好的防范,这来自于大量线上攻击的业务数据的累积以及对这些数據的二次挖掘和利用。
这个给我们什么样的启示做刷脸一开始是做人脸识别,但后来我们发现人脸识别不是最重要的最重要的活体识別,分清到底是一个真人还是仿冒攻击
我们深入场景,会发现你所面临的技术挑战跟你之前想象的不同当行业落地的时候所面临的技術挑战,实际上需要重新定义、***和解决
其实从这五个闭环能够帮助我们去判断,把一个 AI 技术应用在某一个场景是否真的有价值是否真的有意义,是否带来更大的用户价值从这几个角度大家去进行分析判断,会有一个相对比较好的结论
以上是我今天的分享,谢谢夶家