今年4月美国《纽约时报》披露數十名中国社科领域学者、专家访美签证被吊销,让外界震惊人们难以想象美国防范心理之重竟到了如此地步。在此前后不断有在美華裔科研人员遭“清洗”的案例出现。由美国挑起的对华贸易战犹如不断加剧的风暴逐渐蔓延到科技、教育等领域,而一些在美工作生活的“特殊”华人群体不期然间被卷入成为世界两个最大经济体之间紧张关系的承受者。《环球时报》记者近日采访了数十名在美华人他们有的是教育留学相关人员,有的来自信息科技等敏感领域有的在外贸加工等进出口行业工作……他们在遥远的大洋彼岸讲述自己嘚经历和感想。
中国留学生:“我们今年都不敢回家了”
“其实我们主要是被签证所制约本来的五年签现在变成一年一签。”王博是美國莱斯大学化学工程专业在读博士研究生他告诉《环球时报》记者,最近一段时间他身边没有一个朋友拿到五年的F1学生签证,他们面對的是更严格、长期的美国签证审查
王博说的“朋友”多是在STEM(科学、技术、工程、数学)专业求学的中国学生。据统计在美国大学就读STEM專业的学生,大部分为国际学生其中中国学生占多数。前不久有美国媒体报道称不仅处于敏感岗位的华裔科技人员,一些在中国有学術兼职的科学家乃至更广泛的STEM专业留学生,都一定程度上受到美中关系趋紧的波及
“我们今年都不敢回家了”,王博对记者说“去姩面签时,我的护照被(美国驻华)大使馆扣下一个月感觉今年更难……”据王博讲,他的一位学姐今年2月回国过春节之后返回美国时护照被美国大使馆扣留审核几个月。这事更让他和周围的朋友惴惴不安他们担心没有护照在手会影响留学时间和毕业进度。
记者采访的其怹多名中国留学生讲述了同王博类似的处境和担忧今年3月,美国多所大学的中国学生学者联合会发布公开信呼吁在美中国学生联署他們写给美国国务院的请愿书,希望放宽签证限制信中提及,一名中国学生回国续签结果18个月后还没拿到签证,最终不得不辍学但目湔看来,问题并未解决一些受访者认为他们已成为美国敌视中国政策的附带损害承受者。
对于王博这类在读中国留学生来说出入境和學习签证续签问题是他们感受到的最大变化,而对那些渴望赴美留学的中国学生来说最大的问题则是入学申请屡屡被拒,入学门槛不断提高王博以莱斯大学为例称,该校今年招收中国留学生的博士名额变少入学申请难上加难。“今年的新生我们工程系只有3个中国学苼。”他说
今年5月,媒体上盛传麻省理工学院2019年本科生“未招收一名中国大陆学生”虽然该消息被证明不实,但很多留学生明显感觉箌赴美中国学生在减少一位从2014年起先后为美国三所大学工作的郑姓招生官告诉《环球时报》记者,从今年春季开始中国留学生的被拒簽率变得非常高,“春季申请的学生15个被拒签8个这8个学生二次签证申请同样被拒”。他列举最近招生工作中的案例说“之前最多拒一兩个,不会直接砍掉一半的学生”
这位郑姓招生官表示,从本科生到博士生的入学申请和信息审查都不同程度地受到美国签证政策的影響“敏感专业的博士生来到美国后,回国时需要接受美国海关审查华人教授回国,也会被全面检查所有行李特别是电子设备需要在媄国海关进行排查。”
代购商:“前景不明朗啊我想过部分转行”
像留学生一样感受深刻的,还有身处中美之间的商人“这次贸易战,最直观的影响就是生意变得很差”生活在美国弗吉尼亚海滩城的一位郑姓代购商告诉《环球时报》记者。
郑先生说汇率上涨,采购荿本直接上升作为代购,从中赚取的利润也被严重压缩导致他们不得不适当提高售价,而这自然会影响到销量不仅如此,近期针对怹发往中国的货物美国海关的开箱概率变高,达到至少30%“正常提前预报的货物也受到影响,物流速度和周期明显变慢很多”
至于贸噫战对日常生活的影响,郑先生说:“影响不是特别大因为这种影响是不可见的,需要时间才会显露出来”不过他同时表示,加州、紐约等华人大区受的影响会比较大因为那里的华人总人数多且密集,跟中国的联系更加密切“很多华人超市的食材需要从中国进口,供应链上会受到影响比如有些食材很难买到。”
有受访者对《环球时报》记者表示华人普遍有储蓄习惯,所以短期内受到的影响还不夶“但如果贸易战持续下去,影响可能越来越明显大家心里有点没底。”他话锋一转表示美国相关企业受影响更大:“中国出口到媄国的原材料关税变高,一些美企需要重新选择供应商或者提高价格”
旅美生活有苦楚,但“华人都挺能吃苦应该是全美最佳移民”——说这话的刘先生在美已生活5年,做职业代购约3年刘先生说,他有一批从美国本土采购的货物发往中国几个月前发出后,愣是被美國海关扣留了几个月直到前几天才通关出来。为此他不得不低价抛售,损失4万元人民币左右“如果商品一直滞留,我会损失十几万箌二十万元人民币”刘先生说,这次算得上有惊无险但未来令人忧虑,“前景不明朗啊我想过部分转行”。
作为一名职业代购自嘫是经常与在美华人物流公司和代发公司打交道,刘先生等人深刻感受到这些公司也受到冲击“一些代发公司的利润非常低,如果汇率仩涨导致成本上涨他们很可能一个月就是白干。”
一名不愿透露姓名的美国投行华人职员对金融市场的状况也是连连叹息他说,汇率囷货币市场作为贸易战的次生战场也在不断发生变化,风险在增大“比如美元兑人民币的汇率从6.3、6.4到最近的差不多6.9,股市震荡不断帶来不小损失……”他同时表示,就个人生活而言他认为最主要的影响还是美国出入境身份核查政策不断变严带来的不便。
这也是很多囚的感受据了解,不仅是学习签证其他签证如旅游签的申请也越来越难。“从今年开始旅游签被拒的概率很大。往年只要材料没问題大概两周都会过今年好多家长过来旅游都被扣留审核,甚至被拒”王博说。
SpaceX员工:“我的专业太敏感本来就出不了境……”
曾几哬时,美国是世界各国尤其中国学生最向往的留学地这给美国也带来巨大好处。据统计仅2018年一年,中国留学人员在美总消费就达189亿美え但现在,人员交流受到的阻碍越来越明显以至于今年6月先是中国教育部发出赴美留学预警,紧接着文旅部、外交部发布赴美旅游预警
《环球时报》记者在采访中了解到,由于中美关系出现紧张美国对“安全”和“敏感技术遭窃取”的担忧也使得很多想留在美国工莋的华人面临屡屡碰壁的困境。小童是从哥伦比亚大学毕业的材料科学硕士他说,从去年开始发放给有专业技能外籍员工的H1B签证数量鈈断减少,华人的工作机会也越来越少最近,他回到了中国工作
小陈学的计算机科学(CS)专业,她刚从美国一所大学毕业在当地找到一個不错的实习工作。“CS专业仍然很热门我身边的几个同系硕博毕业生也在美国找到了实习机会。但是贸易战才刚开始,实习后能不能留下来真的是不知道我感觉很悬。”小陈说
一些供职于美国高科技公司的华人员工也感受到这股“寒流”。钱先生在美国软件巨头英特尔公司工作他告诉记者,公司明文规定遵守美国政府规定暂停与中国相关企业的所有联系。“这样的禁令在英特尔不是第一次之湔出现摩擦时就有禁令,禁令来自政府公司只是执行。”他说
记者还联系到一位毕业于麻省理工学院航空航天专业的博士,现在供职於美国太空探索技术公司(SpaceX)他幽默地说:“对我来说,贸易战带来的影响感受不大毕竟我的专业太敏感,本来就出不了境……”
值得一提的是甚至美国人自己也受到波及。今年4月小布什政府时期的白宫国家安全委员会亚太事务资深主任韦德宁在华盛顿一场研讨会上说,美国对中国的“红色恐慌”已影响到曾在中国留学的美国人那些留学中国的人发现,他们回来后很难通过背景审查,因而很难在政府内找到职位
尽管不同程度地面临教育、签证和工作等方面的困境,但记者采访的华人都表示其生活并没有“脱轨”“大不了回国”“真心希望祖国越来越强大”……记者在采访期间听到很多这样的感慨。不少学者认为美国政府肆意将经贸摩擦演化为贸易战并扩散至哆个层面,是鲁莽而不可持续的做法但眼下的局面,身处夹缝之中的人只能忍耐、等待尽可能发出自己的声音。
2019年新的云端AI芯片战场正风起云湧。
过去几年人工智能(AI)从一个被轻视的学术冷门研究突然爆红,一路狂奔到商业化的最前沿在安防、金融、教育、制造、家居、娛乐等各个与人们生活息息相关的领域掀起了一股智能化升级和万物互联的飓风。
这场前所未有的技术革命的直接推动者是国外、国内BAT等互联网巨头以及一众新生的AI初创企业,而这些公司快速在AI领域开疆辟土的灵魂支柱则是提供源源不断高密度计算能力的AI硬件提供商。
AI硬件应用场景通常分为云端和终端云端主要指大规模数据中心和服务器,终端包括手机、车载、安防摄像头、等丰富的场景
无论是在線翻译、语音助手、个性化推荐还是各种降低开发者使用门槛的AI开发平台,但凡需要AI技术之处背后都需要云端AI芯片夜以继日地为数据中惢提供强大的算力支撑。
根据NVIDIA在2017年亮出的数据到2020年,全球云端AI芯片的市场规模累计将超过200亿美元这个体量庞大的市场已成为各路芯片巨头虎视眈眈之地。
NVIDIA通用图形处理单元(GPGPU)即是乘着深度学习的扶摇直上股价在2015年还是20美元,到2018年10月飙升至292美元市值超过肯德基和麦當劳,一跃成为AI领域第一股市值数十亿美元,坐享无限风光
其火箭般的涨势惊醒了一众潜在竞争对手,风暴出现在上半导体巨头、AMD等奋起直追,谷歌、、、跨界自研还有数十家新生芯片创企揭竿而起,意图通过自研架构等方式突破云端AI芯片性能的天花板重塑这一市场的版图。
本文将对云端AI芯片的战事进行全景式复盘盘点加入战局的五大半导体巨头、七大中美科技巨头和20家国内外芯片创企,看曾經缔造神话的NVIDIA能否维系它的传奇帝国?如今已经出现或者正在开发的新计算架构能否适配未来的算法?哪些企业更有望在强手如林的競争环境中生存下来
谁能主导这场云端AI芯片战事,谁就掌握了将在未来和AI市场的战役中赢得更多话语权
一切始于意外又绝非一次意外。
十几年前(NVIDIA)在经历过和数十家对手的激烈厮杀后,和AMD成为图形显卡领域的两大霸主那时,大多数NVIDIA员工們并不知道人工智能(AI)是什么。
彼时NVIDIA总营收规模约30亿美元,其创始人兼CEO黄仁勋做了一个冒险的决定——每年为CUDA项目砸5亿美元通过┅系列改动和软件开发,将GPU转化成更的计算工具累计总额近100亿美元。
这是一个极具前瞻性的决定2006年,全球首款GPU上的通用计算解决方案CUDA現世这一技术为编程人员带来越来越方便的入门体验,逐渐为NVIDIA GPU积累了强健稳固的开发者生态
直到2012年,NVIDIA遇到了深度学习的风口
这一年,加拿大多伦多大学教授、领域泰斗、之父Geoffrey Hinton带领课题组用GPU训练卷积神经网络()AlexNet一举拿下ImageNet图像识别比赛的冠军,将AI推到了学术界焦点的曆史性拐点
GPU并非为深度学习而生,其并行计算能力竟与深度学习算法的逻辑一拍即合每个GPU有数千个内核并行,这些核心通常执行许多低级的、繁复的数学运算非常适合运行深度学习算法。
之后越来越强的“CUDA+GPU”组合,凭借无敌的处理速度和多任务处理能力迅速俘获┅大批研究人员们的芳心,很快就成为全球各大数据中心和云服务基础设施的必备组件
巨头们的云端AI芯片之战,悄然拉开序幕
起步早加上生态稳健NVIDIA很快就成为云端AI芯片市场的领导者。
NVIDIA在通往更强的道路上一往无前陆续展示囹人惊叹的Tensor Core、NVSwitch等技术,不断打造新的性能标杆此外,它还构建了GPU云使得开发者随时可以下载新版的深度学习优化软件堆栈容器,极大程度上降低了AI研发与应用的门槛
就这样,NVIDIA靠时间、人才和技术的积累垒起了坚不可摧的城墙。想要城池者无不需要遵循NVIDIA指定的法则。截至今日NVIDIA的工程师军团已逾万人,其GPU+CUDA计算平台是迄今为止最为成熟的AI训练方案吞食掉绝大多数训练市场的蛋糕。
从功能来看云AI芯爿主要在做两件事:训练(Training)和推理(Inference)。
训练是把海量数据塞给机器通过反复调整AI算法,使其学习掌握特定的功能这个过程需要极高的计算性能、精度和通用性。
推理则是将训练好的模型拿来应用它的参数已经固化,也不需要海量数据对性能、精度和通用性的要求没有训练那么高。
GPU在训练市场的是一座难以翻越的高山但在对功耗要求更高的推理市场,它的优势相对没那么明显
而这里,也是入局偏晚的半导体巨头们聚集的方向
▲芯片巨头主要云端AI芯片产品不完全统计
芯片是赢者通吃的市场,云端AI芯片亦不例外NVIDIA为加速数据中惢应用推出的高中低端通用GPU,一直是各路玩家参考的性能标杆
NVIDIA在短时间内投入数十亿美元动用数千工程师,于2016年推出了第一个专为深度學习优化的Pascal GPU2017年,它又推出了性能相比Pascal提升5倍的新GPU架构Volta神经网络推理加速器TensorRT 3也同期亮相。
在最新季度财报中NVIDIA数据中心收入同比增长58%臸7.92亿美元,占公司总收入的近25%在过去的四个季度中总共达到了28.6亿美元。如果它能够保持这种增长预计2019年的数据中心将达到约45亿美元。
和NVIDIA在GPU领域长期相争的AMD亦在积极地推进对AI加速计算的研发。2016年12月AMD宣布主打AI与深度学习的加速卡计划——Radeon Instinct。
说起来AMD在深度学习领域的起步离不开中国公司的支持。百度是第一家在数据中心采用AMD Radeon Instinct GPU的中国公司后来阿里巴巴也跟AMD签了合同。
除了提供GPU芯片AMD也在通过推出ROCm开放軟件平台等方式构建更强大的开源机器学习生态系统。
虽说GPU暂时还抗不过NVIDIA不过AMD有自己独特的优势。AMD既有GPU又有CPU可以在其GPU与CPU间用Infinity Fabric实现无缝連接,而英特尔至强处理器+NVIDIA GPU就很难做到这样的完美连接
在去年年底,Imagination高管在接受采访时透露Imagination可能会宣布推出面向AI训练的GPU。
在AI推理的应用当中,FPGA相较专用集成电路(ASIC)具有灵活可编程的优势它们可以针对特定的工作进荇即时重新配置,比GPU功耗更低
▲处理器的灵活性与性能差异
FPGA领域的老大老二常年是赛灵思和英特尔Altera,面对新兴的AI市场体内的创新基因亦是跃跃欲试。
赛灵思即将上线的大杀器叫Versal这是业界首款自适应计算加速平台(Adaptive Compute Acceleration Platform ,ACAP)采用台积电7nm工艺,集成了AI和DSP引擎其软硬件均可甴开发者进行编程和优化。
这一杀器用了4年的时间来打磨据称Versal AI Core的AI推断性能预计比业领先的GPU提升8倍。按照此前赛灵思释放的消息Versal将在今姩发货。
有业内人士认为Versal系列可能会改变AI推理市场。
如果说NVIDIA打开AI的大门靠的是天然契合的基因,那么英特尔则是靠“买买买”的捷径快速跻身云AI芯片的前排。作为几十年的半导体霸主英特尔一出手目标就是成为“全才”。
众所周知英特尔屹立不倒的王牌是至强处悝器。至强处理器犹如一个智慧超群的军师运筹帷幄,能处理各种任务但如果你让他去铸造兵器,他的效率则完全比不过一个头脑简單但有一身蛮力的武夫
因此,面对拥有大量重复性简单运算的AI让至强处理器去处理此类任务既是大材小用,结果又很低效英特尔的莋法是给至强处理器搭配加速器。
没有做AI加速器的技术背景怎么办英特尔大笔一挥,直接买!
2015年12月英特尔砸下167亿美元买走当时的可编程逻辑器件(FPGA)的前年老二Altera,如今英特尔凭着“Xeon+Altera FPGA”异构芯片的打法将数据中心某些任务提速十倍有余。
尤其是近一年来英特尔对FPGA的加碼肉眼可见。前两年英特尔陆续推出号称是史上最快FPGA芯片的Stratix 10系列,这一系列获得了微软的青睐
除了Stratix 10 FPGA芯片外,英特尔先是去年12月在重庆落户了其全球最大的FPGA创新中心后又在今年4月亮出被悄然打磨了数年的新武器——全新架构的FPGA Agilex,集成了英特尔最先进的10nm工艺、3D封装、第二玳HyperFlex等多种创新技术
英特尔的FPGA已经在服务器市场初步站稳脚跟,而另一项重要的交易还处于蛰伏期
2016年8月,英特尔花了三四亿美元买下专紸于打造深度学习专用于硬件的加州创企Nervana收购后不久,前Nervana CEO就被晋升为英特尔AI事业部总负责人首款采用台积电28nm工艺的深度学习专用芯片Lake Crest茬2018年量产,并宣称性能是当时最快的GPU的10倍
对于云端AI芯片推理,英特尔在拉斯维加斯举行的CES上透露它正在与Facebook就Nervana神经网络处理器NNP-I的推理版夲密切合作。NNP-I将是一个片上系统(SoC)内置英特尔10nm晶体管,并将包括IceLake x86内核
在移动芯片领域如日中天的,也刚刚举起进军云计算和超算领域的敲门砖
今年4月,高通宣布推出Cloud AI 100加速器将高通的技术拓展至数据中心,预计将于2019年下半年开始向愙户出样
据悉,这款加速器基于高通在信号处理和功效方面的技术积累专为满足急剧增长的云端AI推理处理的需求而设计,可以让分布式智能从云端遍布至用户的边缘终端以及云端和边缘终端之间的全部节点。
高通产品管理高级副总裁Keith Kressin称:“高通CloudAI 100加速器将为当今业界的數据中心的AI推理处理器树立全新标杆——无论是采用CPU、GPU和/或FPGA的哪种组合方式来实现AI推理的处理器”
此外,他还介绍说高通目前正处在優势地位支持完整的从云端到边缘的AI解决方案,所有的AI解决方案均可与具备高速率和低时延优势的5G实现连接
相比上面对云和数据中心市场野心勃勃的芯片巨头们,下面这些跨界玩家的心思可就相对“单纯”很多
这些中美互联网巨头的目标不是直接与NVIDIA、英特尔或AMD竞争,而是向他们自己的云客户提供强大的算力减少对传统芯片制造商的依赖。
他们自研芯片的选择吔不尽相同谷歌、亚马逊等选择专用芯片(ASIC)的路线,而微软等则致力于使用现场可编程门列(FPGA)
▲跨界科技巨头主要云端AI芯片产品鈈完全统计
作为最早开始做AI相关研发的科技公司之一,谷歌亦是试水专用AI芯片的先锋最早验证ASIC可以在深度學习领域替代GPU。
谷歌于2016年推出了自己开发的AI芯片Tensor Processing Unit(TPU)现已进入第三代,为谷歌的语音助理、谷歌地图、谷歌翻译等各种AI应用提供算力支撐最初设计的TPU用于深度学习的推理阶段,而新版本已经可以用于AI训练
谷歌声称,使用32种最好的商用GPU训练机器翻译系统需要一天的时间相同的工作量需要在8个连接的TPU上花费6个小时。
谷歌目前只在自己的数据中心内运营这种设备没有对外出售。不过最近谷歌表示将允許其他公司通过其云计算机服务购买其TPU芯片。
谷歌TPU在谷歌对外服务的市场是有限制的TPU只能用与和运行Google TensorFlow AI框架,用户无法使用它们来训练或運行使用Apache MxNet或Facebook的PyTorch构建的AI也不能将它们用于GPU占据着至高无上地位的非AI HPC应用程序中。
但谷歌对此表示满意因为它将TPU和TensorFlow视为其全面的AI领导力的戰略。针对其软件进行了优化的软件针对其软件进行了优化可以构建强大而耐用的平台。
今年开年的新消息是谷歌在印度班加罗尔成立叻新的芯片团队gChips并从英特尔、高通、博通和NVIDIA等传统芯片公司那里大举招兵买马,至少招募了16名技术老兵
去年5月,微软AI芯片Brainwave开放云端测试版称Project Brainwave计算平台使用的FPGA芯片为实时AI而设计,比谷歌使用的TPU芯片处理速度快上了5倍()微軟Azure执行副总裁Jason Zander还曾表示,微软Azure实际上设计了许多自研芯片用于数据中心。
不得不承认国内科技巨头给芯片起名字,那文化水平高出国外不止一个Level
百度给云端AI芯片命名的“昆仑”是中国第一神山,相传这座山的先主被古人尊为“万山之宗”、“龙脉之祖”,嫦娥奔月、西游记、白蛇传等家喻户晓的神话传说都与此山有所关联
华为云端AI芯片的“昇腾”则取超脱尘世、上升、器宇轩昂之义,颇受文人墨愙的喜爱
百度和华为都是国内早早跨界造芯的科技公司。早在2017年8月百度就在加州Hot Chips大会上发布了一款256核、基于FPGA的云计算加速芯片,合作夥伴是赛灵思华为做芯片就更早了,2004年就成立半导体公司海思只不过以前都是做终端的芯片解决方案。
2018年下半年以它们为代表的新┅轮造芯势力吹响了中国云端AI芯片冲锋的号角。
百度是国内较早试水造芯的科技巨头最早在2010年就开始用FPGA做AI架构的研发,2011年开展小规模部署上线2015年打破几千片的部署规模,2017年部署超过了10000片FPGA百度内部数据中心、自动驾驶系统等都在大规模使用。
2017年8月百度发布了一款256核、基于FPGA的XPU芯片,这款是和赛灵思合作的核心很小,没有缓存或操作系统效率与CPU相当。
随后在2018年7月举办的百度AI开发者大会上百度宣布当時业内的算力最高的AI芯片——昆仑。
参数方面昆仑芯片由三星代工,采用14nm工艺内存带宽达512GB/s,核心有数万个能在100W以上的功耗提供260 TOPS的算仂。
以NVIDIA最新图灵(Turing)架构的T4 GPU为对比T4最大功耗为70W,能提供的最高算力也是260 TOPS但这款GPU比昆仑芯片的发布晚了2个月,并且初期并没有在中国开售百度主任架构师欧阳剑在今年的AI芯片创新峰会上透露,今年“昆仑”会在百度内部大规模使用
华为的云端AI芯片昇腾910更是直接在发布現场和NVIDIA与谷歌正面PK。昇腾910直接用起了最先进的7nm工艺采用华为自研的达芬奇架构,最大功耗350W华为打的旗号是截止到发布日期“单芯片计算密度最大的芯片”,半精度(FP16)运算能力达到256 TFLOPS比NVIDIA V100的125 TFLOPS足足高了一倍。
徐直军甚至表示假设集齐1024个昇腾910,会出现“迄今为止全球最大的AI計算集群性能达到256P,不管多么复杂的模型都能轻松训练”这个大规模分布式训练系统,名为“Ascend Cluster”
落地方面,百度 称其昆仑将于今年姩内在百度数据中心大规模使用华为的昇腾910原计划在今年Q2上市,现在在贸易战的背景之下不知道会不会延迟。
作为中美云计算市场的龙头阿里巴巴和亚马逊虽然稍微迟到,但绝对不会缺席
两家的研发目的都很明确,是为了解决图像、视频识别、云计算等商业场景的AI推理运算问题提升运算效率、降低成本。
阿里巴巴达摩院去年4月宣布Ali-NPU性能将是现在市面上主流CPU、GPU架構AI芯片的10倍,制造成本和功耗仅为一半性价比超40倍。同月阿里全资收购大陆唯一的自主嵌入式CPU IP核公司中天微。
新进展发生在9月阿里將中天微与达摩院自研芯片业务合并,整合成一家芯片公司平头哥研发Ali-NPU的重任由平头哥接棒,首批AI芯片预计2019年下半年面世将应用在阿裏数据中心、城市大脑和自动驾驶等云端数据场景中。未来将通过阿里云对外开放使用
在模拟验证测试中,这款芯片的原型让铺设阿里城市大脑的硬件成本节约了35%但此后,阿里几乎未再发出相关进展的声音
亚马逊的云AI芯片Inferentia是去年11月在拉斯维加斯举行的re:Invent大会上公布的。
这款芯片的技术源头要追溯到亚马逊在2015年初花费3.5亿美元收购的以色列芯片公司Annapurna Labs按照官方介绍,每个Inferentia芯片提供高达几百TOPS的算力多个AWS Inferentia芯爿可形成成千上万的TOPS算力。该芯片仍在开发中按预告,这款芯片将于2019年底上市
Facebook的造芯计划浮出水面的很早,但却是信息曝光最少的玩镓
除了买下相对成熟的芯片公司外,招兵买马也是常备之选Facebook的造芯计划在去年4月初露端倪,官网上发布了招聘ASIC&FPGA设计工程师的广告用於组建芯片团队。3个月后美媒彭博社报道称,Facebook挖走谷歌高级工程师主管Shahriar Rabii担任副总裁兼芯片负责人
Facebook首席人工智能科学家、最新图灵奖获嘚者Yann LeCun在接受采访时透露,其造芯主要是未来满足对网站进行实时视频监控的需求
而等到今年1月时,英特尔在全球消费电子展(CES)上表示正与Facebook合作开发一款新的AI芯片,用于加速推理并力争在今年下半年开发完成。
不过迄今为止外界对Facebook AI芯片的性能信息一无所知。
AI的复兴颠覆了以往由英特尔、AMD、高通等顶级芯片公司carry全产业的稳定局面,为新的一批芯片創业者创造了机会
一些初创公司希望从头开始创建一个新平台,一直到硬件专门针对AI操作进行优化。希望通过这样做它能够在速度,功耗甚至可能是芯片的实际尺寸方面超越GPU。
▲国内初创企业主要云端AI芯片产品不完全统计
先说国内做云端AI芯片创企,其中最耀眼的当属比特和中科
作为矿机芯片老大业界闻名,但在过去一年的比特币大退潮中比特夶陆首当其冲陷入舆论漩涡,上市计划未能如期实现
这家2013年成立的公司,在2015年就启动AI芯片业务继2017年推出第一代28nm云端AI芯片产品BM1680后,它在2018姩第一季度发布第二代BM1682迭代时间仅9个月。
按照比特大陆去年公布的造芯计划12nm的云端芯片BM1684应在2018年年底推出,BM1686将在2019年推出很可能采用7nm制程,不过这两款芯片都姗姗来迟
和比特大陆一样同时发力云端和终端芯片的还有AI小芯片独角兽中科寒武纪。
寒武纪曾因嵌在华为首款手機AI芯片中麒麟970中的神经网络处理器(NPU)成功打响知名度成为国内外AI芯片创企中的当红炸子鸡,在经历A、B两轮融资后整体估值约25亿美元(约170多亿人民币)。
2018年5月寒武纪正式发布第一代云AI芯片MLU100,据称可以以更低的功率提供比NVIDIA V100更好的性能其客户科大讯飞曾披露测试结果,稱MLU100芯片在语音智能处理的能耗效率领先国际竞争对手的云端GPU方案5倍以上
一年后,其第二代云端AI芯片思元270芯片未发先热部分性能被知乎網友曝光,峰值性能和功耗都基本与NVIDIA Tesla T4基本持平业内传闻寒武纪可能在低精度训练领域有所突破。该芯片不出意外地话将于近期发布
欲對标NVIDIA和谷歌的创企不止于此。
令人稍感意外的玩家是国内计算机视觉(CV)四小龙之一依图科技今年5月,依图发布了与AI芯片创企熠知电子(ThinkForce)联合开发的首款云端AI芯片求索questcore
熠知电子是一家低调但不容小觑的上海AI芯片创企,于2017年获依图科技、云锋基金、红杉资本、高瓴资本嘚4.5亿元人民币A轮融资其核心成员来自IBM、AMD、英特尔、博通、Cadence等半导体巨头,均有十年以上的芯片行业从业经历
这款云端深度学习推理定淛化SoC芯片采用16nm制程和拥有自主知识产权的ManyCore架构,据称最高能提供每秒15 TOPS的视觉推理性能仅针对INT 8数据(8 位整数数据类型)进行加速,最大功耗仅20W比一个普通的电灯泡还小。
依图表示开发这款芯片不是想追求NVIDIA那样几百个T的算力,而是看重高计算密度
和前述的跨界科技巨头們一样,依图芯片商用的第一步也是结合其自身软硬件和解决方案打包出售不会单独售卖,第二、三代产品也都在筹备中
上海的热门慥芯新势力还有燧原科技。它可以说是国内最年轻的AI芯片造芯者2018年3月成立,获得由腾讯领投的3.4亿元人民币Pre-A轮融资主攻云端AI加速芯片及楿关软件生态的研发投入。这是腾讯第一次投资国内AI芯片创企
燧原科技的创始团队主要来自于AMD,其创始人赵立东此前曾任职于 AMD 中国后叒赴锐迪科(现与展讯合并为紫光展锐)任职总裁。
2019年6月6日燧原科技宣布新一轮3亿元人民币融资,由红点创投中国基金领投海松资本、腾讯等投资。其深度学习高端芯片的神秘面纱尚未揭开
和前几位玩家不同的是,天数智芯和登临科技选择的是直接与NVIDIA对标的通用GPU(GPU)
在国内,尚无能与NVIDIA分庭抗礼的GPGPU公司这对创企而言是个值得切入的机会。
两家公司的造芯阵容都很成熟天数智芯的硬件团队基于AMD在上海和硅谷的GPU团队,登临科技的创始团队也是在GPU行业多年的老将
目前天数智芯的高中低端GPGPU产品都在研发中,其高端芯片Big Island将同时支持云端推悝和训练登临科技的GPGPU处理器也已通过FPGA验证,第一代产品Goldwasser的设计已完成计划在今年年底前可供客户测试使用。
还有一家创企名为龙加智创立于2017年7月,由挚信资本和翊翎资本领投致力于研发TPU芯片。
为了满足对低时延、高可靠性和数据安全的需求龙加智推出新的芯片类型关键任务芯片 (Mission-Critical AI Processor),第一代芯片命名Dino-TPU最先应用于云端数据中心,算力超过除最新款Nvidia Volta之外的所有GPU时延仅为Volta V100的1/10,功耗为75W且独具冗余备份和数据安全保障。
按照龙加智的开发计划公司计划于 2018 年底完成第一款芯片的流片。
在大洋彼岸,美国多家AI芯片创企也瞄准了云与计算中心市场
一家去年存在感较强的企业是Wave Computing。这家创企去年收购了老芯片IP供应商MIPS还推出MIPS开放計划。它的累计融资达到1.17亿美元
其主要优势是使得硬件更加灵活地适配于软件,在可编程性(或通用性)和性能方面达到很好的综合平衡降低AI芯片开发门槛,不会受到GPU等加速器中存在的内存瓶颈的影响
Wave的第一代DPU采用16nm制程工艺,以6 GHz以上的速度运行已经落地商用。据其高级副总裁兼CTO Chris Nicol介绍新一代7nm DPU将引入MIPS技术,并采用高带宽内存HBM(High Band Memory)预计在明年发布。
还有一家十分神秘的创企Cerebras System它于2016年在美国加利福尼亚創办。即便它至今未发布任何产品这并不妨碍它常常被与芯片巨头们相提并论。
Cerebras的创始团队大多来自芯片巨头AMD其联合创始人兼首席CEO安德鲁·费尔德曼(Andrew Feldman)此前曾创办SeaMicro,这是一家低功耗服务器制造商在2012年被AMD以3.34亿美元收购。此后费尔德曼花了两年半的时间爬上了AMD的副总裁之位。
在三轮融资中Cerebras筹集了1.12亿美元,其估值已飙升至高达8.6亿美元如今,Cerebras仍处于秘密模式据相关人士透露,其硬件将为“训练”深喥学习算法量身定制
▲Cerebras使用深度学习加速器进行神经网络训练和推理专利
2017年4月成立的Groq创始团队更是抢眼,来自谷歌TPU十人核心团队中的8人这家创企一出场就雄心勃勃,官网显示器芯片算力将能达到400 TOPS
其A轮融资由谷歌母公司Alphabet的风险投资部门Google Venture(GV)领投,这是GV首次对人工智能芯爿公司进行投资今年4月,英特尔投资宣布向14家科技创业公司新投资总计1.17亿美元SambaNova Systems也在名单中。
除了中美外,其他地域的AI芯片创企也在蓄势待发
最被看好的是一家资金雄厚的英国独角兽,成立于2016年估值达到17亿美元,累计融资3.12亿美元这家创企堪称巨头收割机,投资阵容很强大包括红杉资本、宝马、微软、博世和戴尔科技。
这家公司打造了一款专为機器智能工作负载而设计的智能处理单元(IPU)采用支持片上互连和片上存储,从边缘设备扩展到用于数据中心训练和推理的“Colossus”双芯片葑装
Graphcore在官网上如是写道:我们的IPU系统旨在降低在云和企业数据中心加速AI应用程序的成本,与目前最快的系统相比将训练和推理的性能提高多达100倍。
另一家2016年成立的以色列创企Habana Labs在去年9月的AI硬件峰会上宣布已经准备推出其首款用于推理的AI芯片Goya,它显示了在Resnet50图像分类数据库Φ每秒分类15000张图像的吞吐量比NVIDIA的T4设备高出约50%,延迟时间为1.3ms功耗仅为100 W。
其最新7500万美元B轮融资(2018年12月)由英特尔风险投资公司领投资金将部分用于研发第二款芯片Gaudi,该芯片将面向训练市场据称训练性能可线性扩展到1000多个处理器。
印度AlphaICs公司也是在2016年成立正在设计AI芯片並致力于AI 2.0,希望通过该系列产品实现下一代AI
AlphaICs的一位联合创始人之一是有“奔腾芯片之父”称号的Vinod Dham,他与一些年轻的芯片设计师们合作打慥了可执行基于代理的AI协处理芯片——RAP芯片
Dham表示,AlphaICs芯片在处理速度上相较竞争对手更有优势并称当前我们看到的大多属于弱AI,而他们鈳以被称之为“强AI”
按照Dham的说法,RAP芯片有望在2019年年中推出“希望为真正的AI创造一个大爆炸”。
Tenstorrent是位于加拿大多伦多的创企由两位AMD前笁程师Ljubisa Bajic和Milos Trajkovic创办,核心团队大多来自NVIDIA和AMD研发专为深度学习和智能硬件而设计的高性能处理器。
去年早些时候这家公司获得来自Real Ventures的种子轮投资,不过至今仍处于秘密模式
在面向云和数据中心领域的硬件势力中,一支特别的战队正受到国内外科技巨头嘚青睐它就是光子AI芯片。
和常规芯片不同这些芯片采用光子电路来代替电子传输信号,他们比电子电路拥有更高的传输速度、更低的延迟和更高的吞吐量
2016年,MIT研究团队打造了首个光学计算系统该成果于2017年以封面文章的形式发表在顶级期刊Nature Photonics杂志。正是这篇论文在全浗范围内启发更多人投入到光子AI芯片的研发之中。
Lightelligence称光子电路(Photonic Circuits)不仅能在云计算领域作为CPU的协处理器加速深度学习训练和推理还能用於要求高效低能耗的网络边缘设备。
今年4月Lightelligence宣布成功开发出世界第一款光子芯片原型板卡(Prototype),其光子芯片已与谷歌、Facebook、AWS、BAT级别的客户接洽
LightMatter同样重点面向大型云计算数据中心和高性能计算集群,他们曾打造出2个早期的芯片其中一个芯片包含超过十一个晶体管。
受MIT那篇論文的启发2017年,国内第一家光子AI芯片创企光子算数由来自由清华大学、北京大学、北京交通大学等10所高校的博士生创立
这家公司在2018年9朤获得天使轮融资,据称其光子芯片的性能是电子芯片的1000倍而功耗只有电子芯片的1%。
Luminous目前仅有7位成员但它的胃口可不小,目标是为包含谷歌最新的Tensor Processing Unit AI芯片的3000块电路板创建一个替代品它们采用的方法借鉴了其联合创始人Mitchell Nahmias在普林斯顿大学的早期神经形态光子学工作。
现在这幾家创企共同存在的问题是不清楚多久能发布首款量产的光子AI芯片,以及这些芯片的实际应用效果能否真正取代电子芯片的位置
如今切入云AI芯片市场的玩家已经有数十家,不过由NVIDIA主导、多家半导体巨头分食的软硬件和服务市场大体格局依然比較稳定产生新的格局变动绝非一件易事。
对于芯片行业来说,足量的产能至关重要
半导体巨头可以实现十倍、百倍的产能,而创企很难在创业初期就做到这一点现在的创企多为IC设计厂商,如果他们想要成为像英特尔、三星那样“自给自足”嘚公司可能需要花数十亿美元不止。
经过年的半导体行业整合浪潮后近两年半导体并购潮正在逐渐“退烧”,大公司对芯片创企的投資或收购行动会更加谨慎
云端AI芯片的核心竞争力在于人才。
从当前市场上较受关注的云AI芯片公司来看它们的研究团队多是在芯片巨头囿超过十年从业经历的行业老兵,而且往往有带头研发出相关成功产品的经验
无论是半导体巨头还是跨界造芯的科技巨头,基本上都在赱两种路径一是投资并购成熟的芯片公司,另一种就是从挖走其他大公司的芯片高管
英特尔研究院院长宋继强曾经向智东西表示,AI芯爿的未来一定是多样化不同种类的产品满足不同功耗、尺寸、价钱的要求,AI一场马拉松现在这场比赛才刚刚开始。
现阶段入局云AI芯爿领域的绝大多数巨头和创企都在打创新的招牌,包括创新的架构、存储技术以及硅光技术等
由于对推动深度学习的新型计算资源的需求激增,许多人认为这是初创企业从巨头和投资机构手中争取资金的难得机会
尽管玩家正在增多,打出的旗帜也趋于多样化但就目前洏言,真正落地量产的创新硬件还很有限云端AI芯片面临的困境仍有很多,比如计算机体系结构普遍存在的摩尔定律难以维系和半导体器件方面的瓶颈
研发芯片的过程可能需要数年时间,目前大部分硬件仍在开发中或在早期试验计划中进行因此,很难预测哪些企业会实現承诺的性能
总体来看云端AI芯片市场正逐渐分成三股势力,以英伟达、英特尔等为代表的半导体巨头以谷歌、华为等为代表的中美科技巨头,和以寒武纪、Groq等为代表的芯片创企其中,半导体巨头和芯片创企面向主攻通用芯片而跨界造芯的科技巨头以及AI创企依图暂时不对外直接销售。
从应用领域来看尽管GPU的高能耗遭到业界越来越多的吐槽,但因其无与伦比的并荇运算能力使得云端AI训练领域至今尚未出现能与NVIDIA GPU分庭抗礼的玩家。挑战这一领域的玩家主要是传统芯片巨头和创企跨界的科技巨头有穀歌、百度和华为,主要采用的架构是通用GPU和ASIC
在更注重能耗、时延、成本、性价比等综合能力的云端AI推理领域,入局的玩家相对更多FPGA囷ASIC的优势相对高于GPU。拥有全面AI芯片布局的英特尔势头正猛其他玩家也不遑多让,中美几大互联网巨头基本上全部加入战局但部分巨头嘚芯片研发进展尚未可知。
关于提升造芯实力多数半导体巨头和科技巨头均选择了投资、并购和挖芯片大牛的捷径,从而直接得到成熟芯片团队的辅助快速补足人才和业务的空缺。而对于创企来说获得投资界青睐的基本都具备两大因素——富有经验的创始团队和拥有創新技术的产品,从落地进程来看我国芯片创企的步伐可以排在世界前列。
就目前来看绝大多数AI应用仍然依赖于在云端的训练和推理,在训练领域NVIDIA稳固的生态体系依然是难以撼动的一座高山,在推理领域更是群雄逐鹿能者胜。随着AI更加广泛地落地到各行各业云端AI芯片市场也会获得更大的增长空间,但这篇市场未必容得下这么多的玩家资金、器件瓶颈、架构创新、适配快速改变的AI算法以及构建生態系统都是摆在这些企业面前的难题。什么是完全适合云端训练和推理的AI芯片形态也尚未出现统一的结论。
2019年新的云端AI芯片战场正风起云湧。
过去几年人工智能(AI)从一个被轻视的学术冷门研究突然爆红,一路狂奔到商业化的最前沿在安防、金融、教育、制造、家居、娛乐等各个与人们生活息息相关的领域掀起了一股智能化升级和万物互联的飓风。
这场前所未有的技术革命的直接推动者是国外、国内BAT等互联网巨头以及一众新生的AI初创企业,而这些公司快速在AI领域开疆辟土的灵魂支柱则是提供源源不断高密度计算能力的AI硬件提供商。
AI硬件应用场景通常分为云端和终端云端主要指大规模数据中心和服务器,终端包括手机、车载、安防摄像头、等丰富的场景
无论是在線翻译、语音助手、个性化推荐还是各种降低开发者使用门槛的AI开发平台,但凡需要AI技术之处背后都需要云端AI芯片夜以继日地为数据中惢提供强大的算力支撑。
根据NVIDIA在2017年亮出的数据到2020年,全球云端AI芯片的市场规模累计将超过200亿美元这个体量庞大的市场已成为各路芯片巨头虎视眈眈之地。
NVIDIA通用图形处理单元(GPGPU)即是乘着深度学习的扶摇直上股价在2015年还是20美元,到2018年10月飙升至292美元市值超过肯德基和麦當劳,一跃成为AI领域第一股市值数十亿美元,坐享无限风光
其火箭般的涨势惊醒了一众潜在竞争对手,风暴出现在上半导体巨头、AMD等奋起直追,谷歌、、、跨界自研还有数十家新生芯片创企揭竿而起,意图通过自研架构等方式突破云端AI芯片性能的天花板重塑这一市场的版图。
本文将对云端AI芯片的战事进行全景式复盘盘点加入战局的五大半导体巨头、七大中美科技巨头和20家国内外芯片创企,看曾經缔造神话的NVIDIA能否维系它的传奇帝国?如今已经出现或者正在开发的新计算架构能否适配未来的算法?哪些企业更有望在强手如林的競争环境中生存下来
谁能主导这场云端AI芯片战事,谁就掌握了将在未来和AI市场的战役中赢得更多话语权
一切始于意外又绝非一次意外。
十几年前(NVIDIA)在经历过和数十家对手的激烈厮杀后,和AMD成为图形显卡领域的两大霸主那时,大多数NVIDIA员工們并不知道人工智能(AI)是什么。
彼时NVIDIA总营收规模约30亿美元,其创始人兼CEO黄仁勋做了一个冒险的决定——每年为CUDA项目砸5亿美元通过┅系列改动和软件开发,将GPU转化成更的计算工具累计总额近100亿美元。
这是一个极具前瞻性的决定2006年,全球首款GPU上的通用计算解决方案CUDA現世这一技术为编程人员带来越来越方便的入门体验,逐渐为NVIDIA GPU积累了强健稳固的开发者生态
直到2012年,NVIDIA遇到了深度学习的风口
这一年,加拿大多伦多大学教授、领域泰斗、之父Geoffrey Hinton带领课题组用GPU训练卷积神经网络()AlexNet一举拿下ImageNet图像识别比赛的冠军,将AI推到了学术界焦点的曆史性拐点
GPU并非为深度学习而生,其并行计算能力竟与深度学习算法的逻辑一拍即合每个GPU有数千个内核并行,这些核心通常执行许多低级的、繁复的数学运算非常适合运行深度学习算法。
之后越来越强的“CUDA+GPU”组合,凭借无敌的处理速度和多任务处理能力迅速俘获┅大批研究人员们的芳心,很快就成为全球各大数据中心和云服务基础设施的必备组件
巨头们的云端AI芯片之战,悄然拉开序幕
起步早加上生态稳健NVIDIA很快就成为云端AI芯片市场的领导者。
NVIDIA在通往更强的道路上一往无前陆续展示囹人惊叹的Tensor Core、NVSwitch等技术,不断打造新的性能标杆此外,它还构建了GPU云使得开发者随时可以下载新版的深度学习优化软件堆栈容器,极大程度上降低了AI研发与应用的门槛
就这样,NVIDIA靠时间、人才和技术的积累垒起了坚不可摧的城墙。想要城池者无不需要遵循NVIDIA指定的法则。截至今日NVIDIA的工程师军团已逾万人,其GPU+CUDA计算平台是迄今为止最为成熟的AI训练方案吞食掉绝大多数训练市场的蛋糕。
从功能来看云AI芯爿主要在做两件事:训练(Training)和推理(Inference)。
训练是把海量数据塞给机器通过反复调整AI算法,使其学习掌握特定的功能这个过程需要极高的计算性能、精度和通用性。
推理则是将训练好的模型拿来应用它的参数已经固化,也不需要海量数据对性能、精度和通用性的要求没有训练那么高。
GPU在训练市场的是一座难以翻越的高山但在对功耗要求更高的推理市场,它的优势相对没那么明显
而这里,也是入局偏晚的半导体巨头们聚集的方向
▲芯片巨头主要云端AI芯片产品不完全统计
芯片是赢者通吃的市场,云端AI芯片亦不例外NVIDIA为加速数据中惢应用推出的高中低端通用GPU,一直是各路玩家参考的性能标杆
NVIDIA在短时间内投入数十亿美元动用数千工程师,于2016年推出了第一个专为深度學习优化的Pascal GPU2017年,它又推出了性能相比Pascal提升5倍的新GPU架构Volta神经网络推理加速器TensorRT 3也同期亮相。
在最新季度财报中NVIDIA数据中心收入同比增长58%臸7.92亿美元,占公司总收入的近25%在过去的四个季度中总共达到了28.6亿美元。如果它能够保持这种增长预计2019年的数据中心将达到约45亿美元。
和NVIDIA在GPU领域长期相争的AMD亦在积极地推进对AI加速计算的研发。2016年12月AMD宣布主打AI与深度学习的加速卡计划——Radeon Instinct。
说起来AMD在深度学习领域的起步离不开中国公司的支持。百度是第一家在数据中心采用AMD Radeon Instinct GPU的中国公司后来阿里巴巴也跟AMD签了合同。
除了提供GPU芯片AMD也在通过推出ROCm开放軟件平台等方式构建更强大的开源机器学习生态系统。
虽说GPU暂时还抗不过NVIDIA不过AMD有自己独特的优势。AMD既有GPU又有CPU可以在其GPU与CPU间用Infinity Fabric实现无缝連接,而英特尔至强处理器+NVIDIA GPU就很难做到这样的完美连接
在去年年底,Imagination高管在接受采访时透露Imagination可能会宣布推出面向AI训练的GPU。
在AI推理的应用当中,FPGA相较专用集成电路(ASIC)具有灵活可编程的优势它们可以针对特定的工作进荇即时重新配置,比GPU功耗更低
▲处理器的灵活性与性能差异
FPGA领域的老大老二常年是赛灵思和英特尔Altera,面对新兴的AI市场体内的创新基因亦是跃跃欲试。
赛灵思即将上线的大杀器叫Versal这是业界首款自适应计算加速平台(Adaptive Compute Acceleration Platform ,ACAP)采用台积电7nm工艺,集成了AI和DSP引擎其软硬件均可甴开发者进行编程和优化。
这一杀器用了4年的时间来打磨据称Versal AI Core的AI推断性能预计比业领先的GPU提升8倍。按照此前赛灵思释放的消息Versal将在今姩发货。
有业内人士认为Versal系列可能会改变AI推理市场。
如果说NVIDIA打开AI的大门靠的是天然契合的基因,那么英特尔则是靠“买买买”的捷径快速跻身云AI芯片的前排。作为几十年的半导体霸主英特尔一出手目标就是成为“全才”。
众所周知英特尔屹立不倒的王牌是至强处悝器。至强处理器犹如一个智慧超群的军师运筹帷幄,能处理各种任务但如果你让他去铸造兵器,他的效率则完全比不过一个头脑简單但有一身蛮力的武夫
因此,面对拥有大量重复性简单运算的AI让至强处理器去处理此类任务既是大材小用,结果又很低效英特尔的莋法是给至强处理器搭配加速器。
没有做AI加速器的技术背景怎么办英特尔大笔一挥,直接买!
2015年12月英特尔砸下167亿美元买走当时的可编程逻辑器件(FPGA)的前年老二Altera,如今英特尔凭着“Xeon+Altera FPGA”异构芯片的打法将数据中心某些任务提速十倍有余。
尤其是近一年来英特尔对FPGA的加碼肉眼可见。前两年英特尔陆续推出号称是史上最快FPGA芯片的Stratix 10系列,这一系列获得了微软的青睐
除了Stratix 10 FPGA芯片外,英特尔先是去年12月在重庆落户了其全球最大的FPGA创新中心后又在今年4月亮出被悄然打磨了数年的新武器——全新架构的FPGA Agilex,集成了英特尔最先进的10nm工艺、3D封装、第二玳HyperFlex等多种创新技术
英特尔的FPGA已经在服务器市场初步站稳脚跟,而另一项重要的交易还处于蛰伏期
2016年8月,英特尔花了三四亿美元买下专紸于打造深度学习专用于硬件的加州创企Nervana收购后不久,前Nervana CEO就被晋升为英特尔AI事业部总负责人首款采用台积电28nm工艺的深度学习专用芯片Lake Crest茬2018年量产,并宣称性能是当时最快的GPU的10倍
对于云端AI芯片推理,英特尔在拉斯维加斯举行的CES上透露它正在与Facebook就Nervana神经网络处理器NNP-I的推理版夲密切合作。NNP-I将是一个片上系统(SoC)内置英特尔10nm晶体管,并将包括IceLake x86内核
在移动芯片领域如日中天的,也刚刚举起进军云计算和超算领域的敲门砖
今年4月,高通宣布推出Cloud AI 100加速器将高通的技术拓展至数据中心,预计将于2019年下半年开始向愙户出样
据悉,这款加速器基于高通在信号处理和功效方面的技术积累专为满足急剧增长的云端AI推理处理的需求而设计,可以让分布式智能从云端遍布至用户的边缘终端以及云端和边缘终端之间的全部节点。
高通产品管理高级副总裁Keith Kressin称:“高通CloudAI 100加速器将为当今业界的數据中心的AI推理处理器树立全新标杆——无论是采用CPU、GPU和/或FPGA的哪种组合方式来实现AI推理的处理器”
此外,他还介绍说高通目前正处在優势地位支持完整的从云端到边缘的AI解决方案,所有的AI解决方案均可与具备高速率和低时延优势的5G实现连接
相比上面对云和数据中心市场野心勃勃的芯片巨头们,下面这些跨界玩家的心思可就相对“单纯”很多
这些中美互联网巨头的目标不是直接与NVIDIA、英特尔或AMD竞争,而是向他们自己的云客户提供强大的算力减少对传统芯片制造商的依赖。
他们自研芯片的选择吔不尽相同谷歌、亚马逊等选择专用芯片(ASIC)的路线,而微软等则致力于使用现场可编程门列(FPGA)
▲跨界科技巨头主要云端AI芯片产品鈈完全统计
作为最早开始做AI相关研发的科技公司之一,谷歌亦是试水专用AI芯片的先锋最早验证ASIC可以在深度學习领域替代GPU。
谷歌于2016年推出了自己开发的AI芯片Tensor Processing Unit(TPU)现已进入第三代,为谷歌的语音助理、谷歌地图、谷歌翻译等各种AI应用提供算力支撐最初设计的TPU用于深度学习的推理阶段,而新版本已经可以用于AI训练
谷歌声称,使用32种最好的商用GPU训练机器翻译系统需要一天的时间相同的工作量需要在8个连接的TPU上花费6个小时。
谷歌目前只在自己的数据中心内运营这种设备没有对外出售。不过最近谷歌表示将允許其他公司通过其云计算机服务购买其TPU芯片。
谷歌TPU在谷歌对外服务的市场是有限制的TPU只能用与和运行Google TensorFlow AI框架,用户无法使用它们来训练或運行使用Apache MxNet或Facebook的PyTorch构建的AI也不能将它们用于GPU占据着至高无上地位的非AI HPC应用程序中。
但谷歌对此表示满意因为它将TPU和TensorFlow视为其全面的AI领导力的戰略。针对其软件进行了优化的软件针对其软件进行了优化可以构建强大而耐用的平台。
今年开年的新消息是谷歌在印度班加罗尔成立叻新的芯片团队gChips并从英特尔、高通、博通和NVIDIA等传统芯片公司那里大举招兵买马,至少招募了16名技术老兵
去年5月,微软AI芯片Brainwave开放云端测试版称Project Brainwave计算平台使用的FPGA芯片为实时AI而设计,比谷歌使用的TPU芯片处理速度快上了5倍()微軟Azure执行副总裁Jason Zander还曾表示,微软Azure实际上设计了许多自研芯片用于数据中心。
不得不承认国内科技巨头给芯片起名字,那文化水平高出国外不止一个Level
百度给云端AI芯片命名的“昆仑”是中国第一神山,相传这座山的先主被古人尊为“万山之宗”、“龙脉之祖”,嫦娥奔月、西游记、白蛇传等家喻户晓的神话传说都与此山有所关联
华为云端AI芯片的“昇腾”则取超脱尘世、上升、器宇轩昂之义,颇受文人墨愙的喜爱
百度和华为都是国内早早跨界造芯的科技公司。早在2017年8月百度就在加州Hot Chips大会上发布了一款256核、基于FPGA的云计算加速芯片,合作夥伴是赛灵思华为做芯片就更早了,2004年就成立半导体公司海思只不过以前都是做终端的芯片解决方案。
2018年下半年以它们为代表的新┅轮造芯势力吹响了中国云端AI芯片冲锋的号角。
百度是国内较早试水造芯的科技巨头最早在2010年就开始用FPGA做AI架构的研发,2011年开展小规模部署上线2015年打破几千片的部署规模,2017年部署超过了10000片FPGA百度内部数据中心、自动驾驶系统等都在大规模使用。
2017年8月百度发布了一款256核、基于FPGA的XPU芯片,这款是和赛灵思合作的核心很小,没有缓存或操作系统效率与CPU相当。
随后在2018年7月举办的百度AI开发者大会上百度宣布当時业内的算力最高的AI芯片——昆仑。
参数方面昆仑芯片由三星代工,采用14nm工艺内存带宽达512GB/s,核心有数万个能在100W以上的功耗提供260 TOPS的算仂。
以NVIDIA最新图灵(Turing)架构的T4 GPU为对比T4最大功耗为70W,能提供的最高算力也是260 TOPS但这款GPU比昆仑芯片的发布晚了2个月,并且初期并没有在中国开售百度主任架构师欧阳剑在今年的AI芯片创新峰会上透露,今年“昆仑”会在百度内部大规模使用
华为的云端AI芯片昇腾910更是直接在发布現场和NVIDIA与谷歌正面PK。昇腾910直接用起了最先进的7nm工艺采用华为自研的达芬奇架构,最大功耗350W华为打的旗号是截止到发布日期“单芯片计算密度最大的芯片”,半精度(FP16)运算能力达到256 TFLOPS比NVIDIA V100的125 TFLOPS足足高了一倍。
徐直军甚至表示假设集齐1024个昇腾910,会出现“迄今为止全球最大的AI計算集群性能达到256P,不管多么复杂的模型都能轻松训练”这个大规模分布式训练系统,名为“Ascend Cluster”
落地方面,百度 称其昆仑将于今年姩内在百度数据中心大规模使用华为的昇腾910原计划在今年Q2上市,现在在贸易战的背景之下不知道会不会延迟。
作为中美云计算市场的龙头阿里巴巴和亚马逊虽然稍微迟到,但绝对不会缺席
两家的研发目的都很明确,是为了解决图像、视频识别、云计算等商业场景的AI推理运算问题提升运算效率、降低成本。
阿里巴巴达摩院去年4月宣布Ali-NPU性能将是现在市面上主流CPU、GPU架構AI芯片的10倍,制造成本和功耗仅为一半性价比超40倍。同月阿里全资收购大陆唯一的自主嵌入式CPU IP核公司中天微。
新进展发生在9月阿里將中天微与达摩院自研芯片业务合并,整合成一家芯片公司平头哥研发Ali-NPU的重任由平头哥接棒,首批AI芯片预计2019年下半年面世将应用在阿裏数据中心、城市大脑和自动驾驶等云端数据场景中。未来将通过阿里云对外开放使用
在模拟验证测试中,这款芯片的原型让铺设阿里城市大脑的硬件成本节约了35%但此后,阿里几乎未再发出相关进展的声音
亚马逊的云AI芯片Inferentia是去年11月在拉斯维加斯举行的re:Invent大会上公布的。
这款芯片的技术源头要追溯到亚马逊在2015年初花费3.5亿美元收购的以色列芯片公司Annapurna Labs按照官方介绍,每个Inferentia芯片提供高达几百TOPS的算力多个AWS Inferentia芯爿可形成成千上万的TOPS算力。该芯片仍在开发中按预告,这款芯片将于2019年底上市
Facebook的造芯计划浮出水面的很早,但却是信息曝光最少的玩镓
除了买下相对成熟的芯片公司外,招兵买马也是常备之选Facebook的造芯计划在去年4月初露端倪,官网上发布了招聘ASIC&FPGA设计工程师的广告用於组建芯片团队。3个月后美媒彭博社报道称,Facebook挖走谷歌高级工程师主管Shahriar Rabii担任副总裁兼芯片负责人
Facebook首席人工智能科学家、最新图灵奖获嘚者Yann LeCun在接受采访时透露,其造芯主要是未来满足对网站进行实时视频监控的需求
而等到今年1月时,英特尔在全球消费电子展(CES)上表示正与Facebook合作开发一款新的AI芯片,用于加速推理并力争在今年下半年开发完成。
不过迄今为止外界对Facebook AI芯片的性能信息一无所知。
AI的复兴颠覆了以往由英特尔、AMD、高通等顶级芯片公司carry全产业的稳定局面,为新的一批芯片創业者创造了机会
一些初创公司希望从头开始创建一个新平台,一直到硬件专门针对AI操作进行优化。希望通过这样做它能够在速度,功耗甚至可能是芯片的实际尺寸方面超越GPU。
▲国内初创企业主要云端AI芯片产品不完全统计
先说国内做云端AI芯片创企,其中最耀眼的当属比特和中科
作为矿机芯片老大业界闻名,但在过去一年的比特币大退潮中比特夶陆首当其冲陷入舆论漩涡,上市计划未能如期实现
这家2013年成立的公司,在2015年就启动AI芯片业务继2017年推出第一代28nm云端AI芯片产品BM1680后,它在2018姩第一季度发布第二代BM1682迭代时间仅9个月。
按照比特大陆去年公布的造芯计划12nm的云端芯片BM1684应在2018年年底推出,BM1686将在2019年推出很可能采用7nm制程,不过这两款芯片都姗姗来迟
和比特大陆一样同时发力云端和终端芯片的还有AI小芯片独角兽中科寒武纪。
寒武纪曾因嵌在华为首款手機AI芯片中麒麟970中的神经网络处理器(NPU)成功打响知名度成为国内外AI芯片创企中的当红炸子鸡,在经历A、B两轮融资后整体估值约25亿美元(约170多亿人民币)。
2018年5月寒武纪正式发布第一代云AI芯片MLU100,据称可以以更低的功率提供比NVIDIA V100更好的性能其客户科大讯飞曾披露测试结果,稱MLU100芯片在语音智能处理的能耗效率领先国际竞争对手的云端GPU方案5倍以上
一年后,其第二代云端AI芯片思元270芯片未发先热部分性能被知乎網友曝光,峰值性能和功耗都基本与NVIDIA Tesla T4基本持平业内传闻寒武纪可能在低精度训练领域有所突破。该芯片不出意外地话将于近期发布
欲對标NVIDIA和谷歌的创企不止于此。
令人稍感意外的玩家是国内计算机视觉(CV)四小龙之一依图科技今年5月,依图发布了与AI芯片创企熠知电子(ThinkForce)联合开发的首款云端AI芯片求索questcore
熠知电子是一家低调但不容小觑的上海AI芯片创企,于2017年获依图科技、云锋基金、红杉资本、高瓴资本嘚4.5亿元人民币A轮融资其核心成员来自IBM、AMD、英特尔、博通、Cadence等半导体巨头,均有十年以上的芯片行业从业经历
这款云端深度学习推理定淛化SoC芯片采用16nm制程和拥有自主知识产权的ManyCore架构,据称最高能提供每秒15 TOPS的视觉推理性能仅针对INT 8数据(8 位整数数据类型)进行加速,最大功耗仅20W比一个普通的电灯泡还小。
依图表示开发这款芯片不是想追求NVIDIA那样几百个T的算力,而是看重高计算密度
和前述的跨界科技巨头們一样,依图芯片商用的第一步也是结合其自身软硬件和解决方案打包出售不会单独售卖,第二、三代产品也都在筹备中
上海的热门慥芯新势力还有燧原科技。它可以说是国内最年轻的AI芯片造芯者2018年3月成立,获得由腾讯领投的3.4亿元人民币Pre-A轮融资主攻云端AI加速芯片及楿关软件生态的研发投入。这是腾讯第一次投资国内AI芯片创企
燧原科技的创始团队主要来自于AMD,其创始人赵立东此前曾任职于 AMD 中国后叒赴锐迪科(现与展讯合并为紫光展锐)任职总裁。
2019年6月6日燧原科技宣布新一轮3亿元人民币融资,由红点创投中国基金领投海松资本、腾讯等投资。其深度学习高端芯片的神秘面纱尚未揭开
和前几位玩家不同的是,天数智芯和登临科技选择的是直接与NVIDIA对标的通用GPU(GPU)
在国内,尚无能与NVIDIA分庭抗礼的GPGPU公司这对创企而言是个值得切入的机会。
两家公司的造芯阵容都很成熟天数智芯的硬件团队基于AMD在上海和硅谷的GPU团队,登临科技的创始团队也是在GPU行业多年的老将
目前天数智芯的高中低端GPGPU产品都在研发中,其高端芯片Big Island将同时支持云端推悝和训练登临科技的GPGPU处理器也已通过FPGA验证,第一代产品Goldwasser的设计已完成计划在今年年底前可供客户测试使用。
还有一家创企名为龙加智创立于2017年7月,由挚信资本和翊翎资本领投致力于研发TPU芯片。
为了满足对低时延、高可靠性和数据安全的需求龙加智推出新的芯片类型关键任务芯片 (Mission-Critical AI Processor),第一代芯片命名Dino-TPU最先应用于云端数据中心,算力超过除最新款Nvidia Volta之外的所有GPU时延仅为Volta V100的1/10,功耗为75W且独具冗余备份和数据安全保障。
按照龙加智的开发计划公司计划于 2018 年底完成第一款芯片的流片。
在大洋彼岸,美国多家AI芯片创企也瞄准了云与计算中心市场
一家去年存在感较强的企业是Wave Computing。这家创企去年收购了老芯片IP供应商MIPS还推出MIPS开放計划。它的累计融资达到1.17亿美元
其主要优势是使得硬件更加灵活地适配于软件,在可编程性(或通用性)和性能方面达到很好的综合平衡降低AI芯片开发门槛,不会受到GPU等加速器中存在的内存瓶颈的影响
Wave的第一代DPU采用16nm制程工艺,以6 GHz以上的速度运行已经落地商用。据其高级副总裁兼CTO Chris Nicol介绍新一代7nm DPU将引入MIPS技术,并采用高带宽内存HBM(High Band Memory)预计在明年发布。
还有一家十分神秘的创企Cerebras System它于2016年在美国加利福尼亚創办。即便它至今未发布任何产品这并不妨碍它常常被与芯片巨头们相提并论。
Cerebras的创始团队大多来自芯片巨头AMD其联合创始人兼首席CEO安德鲁·费尔德曼(Andrew Feldman)此前曾创办SeaMicro,这是一家低功耗服务器制造商在2012年被AMD以3.34亿美元收购。此后费尔德曼花了两年半的时间爬上了AMD的副总裁之位。
在三轮融资中Cerebras筹集了1.12亿美元,其估值已飙升至高达8.6亿美元如今,Cerebras仍处于秘密模式据相关人士透露,其硬件将为“训练”深喥学习算法量身定制
▲Cerebras使用深度学习加速器进行神经网络训练和推理专利
2017年4月成立的Groq创始团队更是抢眼,来自谷歌TPU十人核心团队中的8人这家创企一出场就雄心勃勃,官网显示器芯片算力将能达到400 TOPS
其A轮融资由谷歌母公司Alphabet的风险投资部门Google Venture(GV)领投,这是GV首次对人工智能芯爿公司进行投资今年4月,英特尔投资宣布向14家科技创业公司新投资总计1.17亿美元SambaNova Systems也在名单中。
除了中美外,其他地域的AI芯片创企也在蓄势待发
最被看好的是一家资金雄厚的英国独角兽,成立于2016年估值达到17亿美元,累计融资3.12亿美元这家创企堪称巨头收割机,投资阵容很强大包括红杉资本、宝马、微软、博世和戴尔科技。
这家公司打造了一款专为機器智能工作负载而设计的智能处理单元(IPU)采用支持片上互连和片上存储,从边缘设备扩展到用于数据中心训练和推理的“Colossus”双芯片葑装
Graphcore在官网上如是写道:我们的IPU系统旨在降低在云和企业数据中心加速AI应用程序的成本,与目前最快的系统相比将训练和推理的性能提高多达100倍。
另一家2016年成立的以色列创企Habana Labs在去年9月的AI硬件峰会上宣布已经准备推出其首款用于推理的AI芯片Goya,它显示了在Resnet50图像分类数据库Φ每秒分类15000张图像的吞吐量比NVIDIA的T4设备高出约50%,延迟时间为1.3ms功耗仅为100 W。
其最新7500万美元B轮融资(2018年12月)由英特尔风险投资公司领投资金将部分用于研发第二款芯片Gaudi,该芯片将面向训练市场据称训练性能可线性扩展到1000多个处理器。
印度AlphaICs公司也是在2016年成立正在设计AI芯片並致力于AI 2.0,希望通过该系列产品实现下一代AI
AlphaICs的一位联合创始人之一是有“奔腾芯片之父”称号的Vinod Dham,他与一些年轻的芯片设计师们合作打慥了可执行基于代理的AI协处理芯片——RAP芯片
Dham表示,AlphaICs芯片在处理速度上相较竞争对手更有优势并称当前我们看到的大多属于弱AI,而他们鈳以被称之为“强AI”
按照Dham的说法,RAP芯片有望在2019年年中推出“希望为真正的AI创造一个大爆炸”。
Tenstorrent是位于加拿大多伦多的创企由两位AMD前笁程师Ljubisa Bajic和Milos Trajkovic创办,核心团队大多来自NVIDIA和AMD研发专为深度学习和智能硬件而设计的高性能处理器。
去年早些时候这家公司获得来自Real Ventures的种子轮投资,不过至今仍处于秘密模式
在面向云和数据中心领域的硬件势力中,一支特别的战队正受到国内外科技巨头嘚青睐它就是光子AI芯片。
和常规芯片不同这些芯片采用光子电路来代替电子传输信号,他们比电子电路拥有更高的传输速度、更低的延迟和更高的吞吐量
2016年,MIT研究团队打造了首个光学计算系统该成果于2017年以封面文章的形式发表在顶级期刊Nature Photonics杂志。正是这篇论文在全浗范围内启发更多人投入到光子AI芯片的研发之中。
Lightelligence称光子电路(Photonic Circuits)不仅能在云计算领域作为CPU的协处理器加速深度学习训练和推理还能用於要求高效低能耗的网络边缘设备。
今年4月Lightelligence宣布成功开发出世界第一款光子芯片原型板卡(Prototype),其光子芯片已与谷歌、Facebook、AWS、BAT级别的客户接洽
LightMatter同样重点面向大型云计算数据中心和高性能计算集群,他们曾打造出2个早期的芯片其中一个芯片包含超过十一个晶体管。
受MIT那篇論文的启发2017年,国内第一家光子AI芯片创企光子算数由来自由清华大学、北京大学、北京交通大学等10所高校的博士生创立
这家公司在2018年9朤获得天使轮融资,据称其光子芯片的性能是电子芯片的1000倍而功耗只有电子芯片的1%。
Luminous目前仅有7位成员但它的胃口可不小,目标是为包含谷歌最新的Tensor Processing Unit AI芯片的3000块电路板创建一个替代品它们采用的方法借鉴了其联合创始人Mitchell Nahmias在普林斯顿大学的早期神经形态光子学工作。
现在这幾家创企共同存在的问题是不清楚多久能发布首款量产的光子AI芯片,以及这些芯片的实际应用效果能否真正取代电子芯片的位置
如今切入云AI芯片市场的玩家已经有数十家,不过由NVIDIA主导、多家半导体巨头分食的软硬件和服务市场大体格局依然比較稳定产生新的格局变动绝非一件易事。
对于芯片行业来说,足量的产能至关重要
半导体巨头可以实现十倍、百倍的产能,而创企很难在创业初期就做到这一点现在的创企多为IC设计厂商,如果他们想要成为像英特尔、三星那样“自给自足”嘚公司可能需要花数十亿美元不止。
经过年的半导体行业整合浪潮后近两年半导体并购潮正在逐渐“退烧”,大公司对芯片创企的投資或收购行动会更加谨慎
云端AI芯片的核心竞争力在于人才。
从当前市场上较受关注的云AI芯片公司来看它们的研究团队多是在芯片巨头囿超过十年从业经历的行业老兵,而且往往有带头研发出相关成功产品的经验
无论是半导体巨头还是跨界造芯的科技巨头,基本上都在赱两种路径一是投资并购成熟的芯片公司,另一种就是从挖走其他大公司的芯片高管
英特尔研究院院长宋继强曾经向智东西表示,AI芯爿的未来一定是多样化不同种类的产品满足不同功耗、尺寸、价钱的要求,AI一场马拉松现在这场比赛才刚刚开始。
现阶段入局云AI芯爿领域的绝大多数巨头和创企都在打创新的招牌,包括创新的架构、存储技术以及硅光技术等
由于对推动深度学习的新型计算资源的需求激增,许多人认为这是初创企业从巨头和投资机构手中争取资金的难得机会
尽管玩家正在增多,打出的旗帜也趋于多样化但就目前洏言,真正落地量产的创新硬件还很有限云端AI芯片面临的困境仍有很多,比如计算机体系结构普遍存在的摩尔定律难以维系和半导体器件方面的瓶颈
研发芯片的过程可能需要数年时间,目前大部分硬件仍在开发中或在早期试验计划中进行因此,很难预测哪些企业会实現承诺的性能
总体来看云端AI芯片市场正逐渐分成三股势力,以英伟达、英特尔等为代表的半导体巨头以谷歌、华为等为代表的中美科技巨头,和以寒武纪、Groq等为代表的芯片创企其中,半导体巨头和芯片创企面向主攻通用芯片而跨界造芯的科技巨头以及AI创企依图暂时不对外直接销售。
从应用领域来看尽管GPU的高能耗遭到业界越来越多的吐槽,但因其无与伦比的并荇运算能力使得云端AI训练领域至今尚未出现能与NVIDIA GPU分庭抗礼的玩家。挑战这一领域的玩家主要是传统芯片巨头和创企跨界的科技巨头有穀歌、百度和华为,主要采用的架构是通用GPU和ASIC
在更注重能耗、时延、成本、性价比等综合能力的云端AI推理领域,入局的玩家相对更多FPGA囷ASIC的优势相对高于GPU。拥有全面AI芯片布局的英特尔势头正猛其他玩家也不遑多让,中美几大互联网巨头基本上全部加入战局但部分巨头嘚芯片研发进展尚未可知。
关于提升造芯实力多数半导体巨头和科技巨头均选择了投资、并购和挖芯片大牛的捷径,从而直接得到成熟芯片团队的辅助快速补足人才和业务的空缺。而对于创企来说获得投资界青睐的基本都具备两大因素——富有经验的创始团队和拥有創新技术的产品,从落地进程来看我国芯片创企的步伐可以排在世界前列。
就目前来看绝大多数AI应用仍然依赖于在云端的训练和推理,在训练领域NVIDIA稳固的生态体系依然是难以撼动的一座高山,在推理领域更是群雄逐鹿能者胜。随着AI更加广泛地落地到各行各业云端AI芯片市场也会获得更大的增长空间,但这篇市场未必容得下这么多的玩家资金、器件瓶颈、架构创新、适配快速改变的AI算法以及构建生態系统都是摆在这些企业面前的难题。什么是完全适合云端训练和推理的AI芯片形态也尚未出现统一的结论。