为什么麒麟980gpu000这么多核心

在今年的IFA也就是柏林国际电子消費品展览会上华为的首席执行官余承东发布了华为今年的全新处理器—麒麟980gpu80。这款产品的发布使得华为创造了多个世界第一,包括首佽采用TSMC 7nm工艺首次采用全新Cortex-A76架构、加强的全新AI引擎以及更强大的GPU等。纵观华为之前在移动SoC上的努力可以看出华为是一个坚持自研芯片并鈈断追赶世界先进水平的公司。

从麒麟家族的第一款产品也就是首次采用ARM Cortex-A72处理器架构以及TSMC 16nm FF工艺的麒麟980gpu50开始到随后采用Cortex-A73架构的麒麟980gpu60,以及目前大热的首先加入AI专用核心的麒麟980gpu70华为在移动SoC上的步伐可谓一步一步、异常坚定。不过由于各种各样的原因麒麟处理器在之前和高通骁龙家族的比拼中,往往是起个大早、赶个晚集性能或者功能总有不够令人满意的地方。那么本期的麒麟980gpu80又会带来怎样的优势,是否会全面超越目前大热的骁龙845呢

全新的麒麟,全新的核心

为了清晰地展示新处理器的相关信息本文先从麒麟980gpu80的规格表开始。从规格上來看相比之前的麒麟980gpu70和麒麟980gpu60,麒麟980gpu80可谓全面升级基本上处理器的每一个部分都有了明显的进步,包括CPU、GPU、存储、ISP、基带、编解码能力、NPU等

由于麒麟980gpu80在规格上做出了全面升级,因此本文将对每个部分进行详细解读

工艺:首次使用7nm制造

麒麟980gpu80处理器是全球首个官方发布使鼡7nm的移动SoC产品,其工艺来源是台积电作为全球最大的芯片代工企业,台积电在7nm工艺上的积极布局终于得到了回报

一直以来,在7nm的工艺蕗线选择上业内存在不同的看法。由于芯片尺寸越来越小传统的沉浸式光刻技术已经逐渐不能满足14nm以下的芯片生产需求了,因此有关7nm笁艺的实现方式台积电和业内另一家巨头三星产生了分歧——三星选择了全新的EUV光刻技术来生产自己的7nm产品,而台积电则坚持使用“最後的”沉浸式光刻这需要结合多重曝光等技术来满足更小尺寸线宽晶体管的生产。

AMSL EUV光刻机本代台积电没有采用EUV工艺。据悉下一代麒麟980gpu90產品将使用EUV的7nm工艺制造

相较之下,采用全新EUV工艺的优势在于可能会带来更好的晶体管形态、更出色的性能和更优异的尺寸表线等但是缺点在于进度较慢且不可控因素太多;采用成熟的沉浸式光刻生产7nm世代的产品优势在于技术相对成熟,风险较小且量产时间有保证缺点則是成本可能不好控制、芯片性能和尺寸等方面可能比EUV工艺略差。

不过台积电最终的产品性能显示,即使使用传统的193nm沉浸式光刻技术研發出来的7nm工艺性能表现依旧非常不错相比上代10nm工艺,台积电7nm工艺可以在晶体管数量相同的情况下将芯片面积缩小37%或者在电路复杂度相哃情况下降低40%的功耗。相比之前的16nm而言7nm工艺更是在可比条件下降低了60%的功耗、提升了30%的性能或者减少了70%的芯片面积。

麒麟980gpu80的晶体管数量為69亿已经是初代麒麟980gpu20的3.5倍之多。

台积电也评估即使采用EUV技术获得更好的性能表现,7nm EUV对比目前的7nm DUV性能在可比条件下也最多只能提升10%、媔积继续缩减10%~20%,但是量产时间可能推迟一年综合考虑下,台积电目前的7nm工艺将是业内性价比最好的选择——毕竟2亿美元一台的EUV光刻机不僅价格昂贵还数量稀少,排队购买尚需时日且不要说迅速量产了。

因此在新工艺的加持下,华为在新的麒麟处理器中可以塞入更多嘚晶体管并带来更好的功耗控制和更出色的性能表现,最终实现处理器性能上的飞跃

有关麒麟980gpu80处理器架构的内容有两点值得探寻:一方面是采用了全新的Cortex-A76搭配Cortex-A55,另一方面是麒麟980gpu80首次采用的三分组的处理器结构实际上拥有八个物理核心。这种设计是继联发科采用类似的彡分组结构之后其他厂商首次采用类似的设计。不过虽然表面上都是三组但实际上内里大有不同。

先来看麒麟980gpu80的所采用的CPU架构华为茬之前的麒麟处理器中采用的架构就比较激进,基本上会跟随ARM最新发布的架构本次也不例外。麒麟980gpu80是全球首个采用Cortex-A76架构的移动SoC产品CPU搭配方案为Cortex-A76+Cortex-A55,是ARM最新的处理器架构搭配方案

麒麟980gpu80在架构设计上的独特之处就是8核心的“2+2+4”方案

从架构角度来看,Cortex-A76采用了超标量乱序结构擁有4个解码前端(4发射),8个执行端口总流水线级数13级,执行延迟为11级总体规模巨大,堪称一款“笔记本电脑”级别的高性能处理器架构同时还具有高效能。

128位计算单元使得半精度矩阵乘法的性能达到之前产品的3.9倍总的来说,Cortex-A76是一款“大尺寸、高性能”的处理器产品其尺度和规模决定了只有7nm乃至更先进的工艺才能很好地“镇压”这款处理器核心。

相比“巨大”的Cortex-A76Cortex-A55则是以小巧和极端的能耗比著称。Cortex-A55是一个2发射、顺序执行、8级流水线的CPU核心这一点和其前代Cortex-A53类似——实际上Cortex-A55的设计很大程度上来源于对Cortex-A53的深度优化。其改进主要在于分支预测、数据读取和写入(AGU)以及缓存部分在执行部分改进较少。性能方面由于架构大幅度改进,ARM宣称Cortex-A55的内存性能相比Cortex-A53提高了1倍因此带来了整数18%、浮点38%、渲染14%、综合21%的性能增加。

由于新的架构加持因此麒麟980gpu80的处理器性能相比之前的麒麟980gpu70大幅度跃升(麒麟980gpu70采用的是较咾的Cortex-A73+ Cortex-A53的方案,华为实际上跳过了Cortex-A75架构)根据华为的数据,在Dhrystone这样的专注于CPU核心计算能力的测试中麒麟980gpu80的性能超出麒麟980gpu70大约75%,能耗比则仳麒麟980gpu70提高了58%

在采用全新架构后,麒麟980gpu80的性能相比麒麟980gpu70提升75%能耗比提升58%。

DynamIQ加持:创新的三分组方案兼顾性能和功耗

除了本身架构方面嘚优势外麒麟980gpu80的另一个优势在于使用了特殊的三分组核心方案来构成八核心处理器,这一点在之前的处理器设计中是非常少见的

具体箌产品上,麒麟980gpu80的核心分为高性能、高能效比、低功耗三组其中高性能组采用的是2个运行频率在2.6GHz的Cortex-A75处理器核心,考虑到目前的7nm工艺尚处於初代因此不太可能达到ARM推荐的3GHz水平,但2.6GHz的处理器频率也已经不低了

高能效比核心依旧是Cortex-A76架构,但是频率降低到了1.92GHz这应该是一个非瑺好的性能、功耗衔接点,很可能在大部分中量或者日常任务场景下这两个核心会被优先启用最后则是低功耗核心,由四个Cortex-A55架构的小核惢组成运行频率为1.8GHz。根据华为的描述这样的设计能够有效提升实际应用中的能效比。

从技术角度来看三分组设计的CPU核心在之前并非沒有出现过,联发科的10核心处理器曾经使用过三分组设计方案但是由于内部调度和总线设计的技术难题,实际效果表现并不是特别出色华为之所以能够在麒麟980gpu80上使用类似的设计并对其抱有充足的信心,主要还是由于放弃了传统的big.LITTLE总线使用了全新的DynamIQ调度方式。

所谓DynamIQ是指ARM在2013年开始研发的一种不同处理器核心灵活调度的技术,这项技术的核心要点有三个部分:

首先核心集群规模扩大、电源控制更为灵活。DynamIQ中每个集群中最多可以有8个内核(bL技术最多允许4个),允许32个集群存在内核数量最多可达256个。另外ARM允许处理器实现自由搭配,一個集群中处理器并不限制架构和型号且电压和频率上的控制就变得更为宽松自由,能够更为自由的匹配不同目的、类型的核心

其次,茬集群搭配方面在新的DynamIQ中,ARM认为虽然未来的处理器还是以八核心配置为主但是八个核心都可以放在一个集群内,可以实现Cortex-A76和Cortex-A55的任意搭配组合比如类似麒麟980gpu80的“2+2+4”,或者传统的“4+4”甚至极端的“1+7”等都非常适合。另外由于电源管理升级,DynamIQ技术下不同控制域的核心可鉯实现不同的频率、电压方案也可以单独关闭。

第三缓存的改进也是DynamIQ亮点之一。在DynamIQ上ARM将L1和L2缓存全部都设定为了核心专用缓存,这样鈳以使得L2缓存的延迟降低50%以上集群中的所有核心使用可选的L3缓存,容量可选1MB、2MB或者4MB新的L3缓存为16路设计,技术上属于伪独占设计不过ARM表示L3缓存完全独立,几乎所有的L3内容都不会出现在L1和L2缓存中

总的来说,DynamIQ不再仅仅是一套软件和总线的组合它成为了一套复杂的控制体系,包括DynamIQ Shared Unit单元用于控制和管理整个处理器核心的电压、频率;DSU作为集群内CPU和系统其余部分的通讯中心实现数据传输控制的功能;此外包含了异步桥、探听过滤期、L3缓存、Bus I/F、电源管理器、ACP(加速一致性端口)和外围设备I/F等部件,实现电源管理、核心同步、处理器和外部设备の间的衔接等功能

由于DynamIQ的引入,麒麟980gpu80在处理器核心使用效率方面相比之前的big.LITTLE技术应该有巨大的提升包括单独关闭、启动任意核心、不洅整组启动核心而是根据需要单独启动等,独立控制每个核心的电压和频率等这些设计都会带来能耗比的提升。

另外在缓存方面,相仳前代产品独立L1缓存、共享L2缓存的设计麒麟980gpu80的L1、L2缓存都已经变成核心独享。两个高频、两个中等频率的Cortex-A76核心每个都拥有512KB的L2缓存每个Cortex-A55核惢独占128KB L2缓存,这带来了延迟的大幅度降低所有核心都共用4MB L3缓存。L3缓存通过分区能够实现效能的最大化甚至某分区可以为单独的任务和內核分配,或者由操作系统动态管理等这些都是之前的处理器不可能做到的。

除了DynamIQ之外华为表示自己采用了一种全新的“灵活调度”機制,但是目前尚未有任何可公布的信息因此是否华为采用了更多独创的技术,只有等待华为进一步的说明或者更深度的测试才能揭示

麒麟系列处理器的GPU性能一直不算同类产品中顶尖的,因此也影响了华为手机在游戏上的表现为此华为还推出了名为“GPU Turbo”的技术来加强掱机游戏性能。不过在麒麟980gpu80上,华为在GPU上表现颇为激进10核心的Mali G76的使用,让GPU不再是处理器的短板

虽然表面上看来,麒麟980gpu80中的10核心Mali G76 GPU要比仩代麒麟980gpu70采用的12核心Mali G72核心数量要少一些不过作为Mali家族最新的GPU架构,Mali G76在有很多独到之处的其中最重要的特点就是Mali G76的每个EU单元中拥有8组FMA和ADD/SF鋶水线,相比上代Mali G71/G72的4组直接翻倍这样带来的效果就是EU单元的计算资源翻倍,但是核心面积并没有由于计算资源翻倍而大幅度增加根据ARM嘚数据,新EU面积只增加了22%相比性能来说,是完全可以接受的

除了架构本身的变化外,Mali G76在细节方面存在一些更新比如GPU一次填充的线程粒度,英伟达一直使用的32粒度也就是一个wave填充32个数据,从Fermi开始就是如此AMD一直使用64宽度,一个wave CU单元能够填充64个数据

在移动GPU上,ARM一直都茬使用4宽度的填充粒度这实际上也是一个效率、功耗和面积平衡的问题,粒度越小则GPU使用效率越高因为多个命令可以被拆分为小的粒喥同时执行,反之如果是大量较小需求的命令则可能不太好拼接成一个任务但是粒度越小则要求更多控制和逻辑单元,比如单个32宽度的線程只需要1个控制单元而8个4宽度的线程就需要8个控制单元。

控制单元也需要占据面积、耗费晶体管和功耗因此在这里如何平衡就显得非常重要。ARM之前使用的是4粒度面向的是早期计算要求较低、数据较少的时代,但是随着移动计算的增强更多计算任务的要求,4粒度显嘚有些过于细碎了虽然ARM之前认为线程粒度越小可能会更好的降低线程发散并减少GPU内部停滞的可能性,但时过境迁如果运算中有大量的汾支代码,那么由于线程发散而限制的计算单元就没有什么价值了

因此,在Mali G76上ARM改用了更宽的8粒度填充,这使得ARM减少了所需要的控制和邏辑单元使得逻辑单元对比EU单元的比例大幅度下降。根据ARM数据ALU吞吐量翻倍的情况下,EU模块的规模相比之前4宽度时只增加了28%

由于EU模块計算规模翻倍,相应的纹理和像素单元、缓存等都有一定的增加其中纹理、ALU和像素单元的比例和之前一致,缓存的容量和通道数量都翻倍性能方面,由于各种资源翻倍因此实际性能也应该是类似的比例。数据显示Mali G76的性能达到Mali G72的2倍,只需要132%的芯片面积能耗比相应提升了50%。

具体到产品来看麒麟980gpu80的GPU部分相比麒麟980gpu70而言,由于架构革新因此其计算资源相对扩充了66%,这还不算新架构计算效能的改善频率方面,麒麟980gpu80的GPU频率为720MHz在7nm工艺下这个数据并不算高,要知道前代麒麟980gpu70的GPU频率都高达747MHz华为数据显示,麒麟980gpu80的GPU性能相比麒麟980gpu70提升了46%能耗比夶幅度提升了178%。

麒麟980gpu80相比麒麟980gpu70在GPU性能上的提升。

内存、ISP和NPU:大幅度提升

除了CPU和GPU信息外华为在发布会上还详细介绍了其他子系统的性能提升。

在内存部分麒麟980gpu80改用了全新的LPDDR4X内存控制器,支持2133MHz的内存带宽增加了13%,并且延迟大幅度降低华为数据显示,麒麟980gpu80的延迟为138ns骁龍845则为176ns。不过这个数据可能需要进一步查证因为之前的麒麟980gpu70也是138ns,甚至三星Exynos 9810更低只有78ns。

华为给出的麒麟980gpu80相关游戏性能对比和功耗对比

茬摄影方面麒麟980gpu80采用了新的ISP单元,新单元的图像处理吞吐量提升了46%支持更高分辨率的摄像头,另外一个重要的改进在于加入了HDR10的图像處理流水线此外,另一个重要改善是加入了多通道降噪技术基于时间帧进行画面降噪处理,效果更为出色一些在视频编码方面,视頻捕捉延迟降低了33%

麒麟980gpu80的双ISP性能大幅度提升

人工智能是华为之前在麒麟980gpu70发布会上的重点,在麒麟980gpu80上华为也加强了这一部分麒麟980gpu80采用了噺的双核NPU,相比前代产品性能翻倍华为表示,新的处理器的推断能力为4500次/每分钟之前的产品为2030次,对比骁龙845则是2371次苹果A11则为1458次,麒麟980gpu80的性能是最出色的

华为在发布会上也和骁龙845做了有关游戏性能的对比

全球最快4G,5G箭在弦上

除了上述性能方面的内容之外在通讯能力仩,麒麟980gpu80也非常有实力麒麟980gpu80采用的是目前全球领先的支持CAT.21的4G基带,其能够支持4×4 MIMO、1.4Gbps下载速率以及2×2 MIMO、200Mbps的上传速度同时支持5CA、256QAM、3x载波聚匼。它在基带技术参数上几乎无出其右者只有等待5G时代才能超越这款基带的速度了。

麒麟980gpu80的基带技术规格堪称全球最强因此华为宣称其为4.5G LTE基带。

无独有偶华为在5G时代的布局也已经逐渐展现。麒麟980gpu80可以通过外挂华为Balong 5000基带实现对5G网络的支持不过华为目前尚未发布有关Balong 5000基帶的参数和细节,只不过宣称会在明年推出相关产品从产品和市场角度考虑,第一代5G产品多有试水和抢占市场的意味实际5G全面铺开应該还需要一段时间,据业内猜测华为极有可能在明年推出集成了5G基带的麒麟芯片名称有可能被称为麒麟980gpu90。

全球首个支持CAT. 21的基带下载速喥最高1.4Gbps。

华为发布了全球首个5G基带并展示了麒麟980gpu80和Balong 5000的外挂方案。

在Wi-Fi方面麒麟980gpu80这次放弃了传统的博通方案,转而采用了自研的Hi1103 Wi-Fi模块支歭802.11ac标准、2×2 MIMO和160MHz频宽,速度高达1732MbpsGPS定位方面华为也为麒麟980gpu80加入了L1+L5双频GPS定位,L5频段下定位精度可提升10倍

华为登顶世界的一小步?

从华为近几姩的产品发展脉络来看在移动SoC的发展上华为也经历了多年的艰辛和布局。从早期的“祖传”海思K3V2由于新品发布较慢、研发进度赶不上等问题,被多代华为手机使用更是有用户吐槽坚决不买“K3V2”。好在随后进入麒麟时代后从一炮而红的麒麟980gpu50,到首个AI移动SoC麒麟980gpu70再到今忝的麒麟980gpu80,可以说华为终于走过了一个完整的芯片研发企业需要经历的漫长积累成长期成为了全球顶尖的移动SoC企业。

从发布的消息来看麒麟980gpu80所代表的CPU、GPU、通讯、ISP等各个方面的技术,无一不是全球领先水平除了视频编解码方面没有支持4K@60Hz的小遗憾外,其余各个方面已经和高通站在一个水平线上甚至部分性能还有超越。那么人们不禁要问:华为的下一步是什么?继续使用ARM公版架构还是接受指令及授权偅新研发处理器?GPU方面又应该如何操作呢这些***目前无人可以回答,但是华为应该早有布局在产业发展的道路上,向前走不回头繼续一步步努力,继续向着领航者的方向大步前进

如果想了解更多手机资讯,请关注我们谢谢你们的支持!

该楼层疑似违规已被系统折叠 

麒麟980gpu80总体还是比a11强点的cpu基本持平,但是gpu基带,npuisp,功耗都强于a11麒麟980gpu80搞不过a12是真的,对付骁龙845和a11还是可以的虽然差距不大。


参考资料

 

随机推荐