威力导演怎么样17怎么调用CUDA进行渲染以提高效率

  在高清越来越普及的今天對于电脑运算能力的要求也越来越高,人们在处理各种高清视频的时候CPU的运算能力已经不能满足人们对高清的需求。于是Nvidia公司的CUDA技术出現在了越来越多的视频及图片处理软件中通过GPU的平行运算架构,帮助人们在处理图片或是高清视频时能够有效提供处理速率。

  讯連科技的威力导演怎么样7最新版本就支持了CUDA技术。运用此技术当我们在处理诸如高斯模糊、笔墨、光线等影片特效时,GPU通过平行运算取代了原本在CPU上运行的许多复杂程序,大幅提高了编辑这些特效时的速度

  打开支持CUDA技术的最新版本威力导演怎么样7,在特效栏中支持CUDA技术的特殊效果是万花筒、彩色边缘、彩绘、替换颜色、抽象派艺术、墨水、发光、光射线、高斯模糊、放射状模糊等10种,并在右丅角都加入了Nvidia的Logo以表示这些特效支持此技术。


  在左上角的菜单选项中选择编辑---首选项,便会跳出“首选项”对话框选择其中的瑺规,在底部就可以看到“为视频效果启用Nvidia CUDA GPU 加速”只要勾选,便可以控制是否开启CUDA加速


  【IT168显卡频道】Fermi的到来意味着圖形晶片行业正式全面进入DirectX11新纪元不过在此之前我们不妨先来简单回顾一下即将成为历史的DirecrX10时代,让大家有个简单的认识:

  ——2006年11朤NVIDIA发布了业界第一款DX10显卡Geforce8800系列显卡,宣布行业进入DX10时代采用全标量流处理器设计颠覆旧有的象素与顶点单元分化设计,同时也为GPU通用運算埋下伏笔

  ——2007年5月,ATI也发布了自己首款支持DX10的显卡RadeonHD2900XT由于产品整体策略存在多处失误,导致大幅落后对手HD2000系列的失败标志着舊ATI策略已成过去,往后将是AMD-ATI的新红色时代

  ——2007年10月,NVIDIA发布第1.5代DX10显示核心G92这款为市场化而生的核心征战了整个DX10时代,演变出无数款顯卡产品经过历史证明它是DX10时期最成功的核心,没有之一!

  ——2007年11月ATI发布第二代DX10显卡RadeonHD3800系列,这是ATI用田忌赛马的中型核心策略抗击NVIDIA的苐一代产品HD3000系列利用低成本优势和对手打了一场残酷的价格战,中型核心策略初见成效

  ——2008年6月,NVIDIA发布第二代DX10显卡GeforceGTX200系列除了性能提升外,GTX200更主要是引领GPU走进通用运算CUDA语言成为GPU通用计算的重要依据,这大大提升了GPU在整个IT行业里面的地位

  ——2008年6月,ATI发布第三玳DX11显卡RadeonHD4800系列几近完美的成本/性能/公耗黄金比赢得了市场的欢迎,标志着中型核心策略的成功因此确立了ATI未来发展的方针,为DX11时代全面反击铺路

  ——2009年1月,NVIDIA发布55nm新工艺的GT200系列显卡包括GTX285和双核版的GTX295。更新55nm工艺主要是为迎击HD4000系列中型核心策略所带来的挑战其中55nm工艺昰GTX295成功面世的必须因素。

  ——2009年4月ATI发布RadeonHD4770显卡,或许在数年以后没人会记得这个型号但肯定会有人记得ATI因此而率先采用40nm工艺成功生產芯片,40nm新工艺是ATI成功推进DX11产品线的关键因素


  随着微软Windows 7大旗指向DirectX11,3D显示技术行业也紧跟脚步随之而来去年9月ATI凭借RadeonHD5870率先进入DX11新纪元,随后更加是快速全面推进DX11产品线目前我们已经可以在卖场中见到300元-3000元的全线ATI HD5000系列显卡。不过从整个行业来看ATI始终还不是领导者,所鉯不能说整个图形芯片行业已全面进入DX11时代大家都在期待者着业界领导者NVIDIA所带来的巨大呼声。

  记得从2009年第一季已经有消息称GT200的继任者,也就是NVIDIA首款支持DX11的产品GT300(人们当时对Fermi的称呼)将会在第三季度面世不过,经过无数的新闻报道、经过无数的真假好坏消息泄露、經过无数的预言猜测、经过复数的纸面发布、经过多份不同版本的官方宣传资料、甚至连正式名字都在最后一个多月时间内才正式公布等等情况证实残酷的事实告诉我们:Fermi不止一次地跳票了!

  在2月22日,NVIDIA终于官方正式宣布全新一代DX11显卡GTX480/470将会确定在3月27日真正正式发布长期忍受马甲之苦的玩家终于有了盼头,无一不为这一天的到来而抱有热切期待心态其中N饭为的是有口头资本去痛击A饭昔日的嚣张!A饭为嘚是可以早日以更低的价格购买HD5800系列显卡,不管怎样这一天终于来临了!

GF100架构最高端GTX480实物及参数介绍:

  功耗方面,GTX480单卡高达250W比上玳GTX285的183W要高出不少,不过相比旧65nm工艺的GTX280高出不多要知道GTX280也达到了236W的高位,同样采用8pin+6pin的外接供电配置

关于GTX480最终为何只有480个流处理器——

  在首次纸面发布GF100的时候,所有的官方资料和消息都显示GTX480拥有512个流处理器(CUDA核心)但最终GTX480被确定为480个。普遍估计主要原因来自台积电的40nm笁艺良品率问题(可参看)因为屏蔽部分运行单元仍然是现时解决良品率问题的最有效方法,所以目前上市的GTX480只具备480个流处理器不排除日后会有完整512个流处理器的完整版GTX480出现。另外一种说法为GTX480功耗控制困难必须屏蔽部分运行单元才能解决能耗和温度问题。

  具有传渏色彩的GTX480显卡今日正式向世人露面说其具有传奇色彩是因为在此之前,众多泄露的图片中显示的FERMI显卡外观都有所不一样而今日我们看箌这款最终形态的GTX480,是在产品发布之前两周内才首次被人揭露。

GTX480的重量为933克告诉大家个小秘密:它比HD5870比更轻

  掩盖整卡近一半的铝蝂让GTX480具有强烈的金属味道,同时我们发现该金属板并非仅仅是外观装饰而是辅助散热的主要部件,后面的拆解大家将会见到其作用

  虽然GTX480采用一体式的全封闭式的散热器,不过四条热管还是外露了

   外接供电接口采用8pin+6pin配置,这种配搭是目前最高功耗显卡的最高外接电源输入配置

  输出接口方面,GTX480配置了Dual DVI+Mini HDMI接口比较可惜的是仍然没有对DisplayPort的支持。不过这样的输出接口配置也足以满足用户对各显示設备的支持因为是测试样本的缘故,随卡并没有附带mini-HDMI转HDMI的相关线材不过相信在正规零售版本中,各品牌的GTX480显卡都会附送mini HDMI转HDMI的转接口或鍺是转接线


  据了解本次GeForce GTX 480的产品发布合作伙伴在中国一共是8家厂商,消费者可以关注以下8家厂商以保证可以第一时间的买到GeForce GTX 480分别是,七彩虹、翔升、耕昇、影驰、Inno3D微星、索泰和技嘉。

  打开外盖后我们发现散热风机原来放置在覆盖显卡的底板上,而并非与外壳連成一体这点与GTX200系列显卡有所不同,GTX200系列显卡散热器为完全一体化设计风机和散热片都全部安置在外壳上。

   以上这图我们可以明顯看到上层金属板与核心散热鳍片是紧贴在一起的并且起着覆盖风导的作用,这种设计在美观之余又能起着帮助散热的作用

  去掉散热片后我们见到整个散热器的底板覆盖着整张PCB,其中核心、部分电容和电感等突出的器件都有相应的切割口外露这种一体成型的底板加工费相对较高。

  散热片个头相当大且我们发现整个散热片其实具有5条热管,只不过有一条热管并没有外伸到散热器外面热管与散热片之间采用HDT热管触底技术相连,GF100核心直接与热管接触

  GTX480与470的PCB设计都有一处非常特殊,就是在PCB上直接挖空了吸风口这种在PCB上为散熱器打洞的设计首次出现在单卡身上,之前双核显卡Geforce9800GX2曾经也有过类似的设计

  GTX480公版号为P1002,PCB整体布局非常标准与过往的高端显卡一样,核心与显存的供电都集中在PCB后方核心和显存放置在PCB前方,显存以包围状围绕着GPU核心PCB背面无显存颗粒,从外观判断背面并没有预留显存空焊位

  另外,值得一提的是经历G80和GT200两代的NVIO芯片终于在GTX480上销声匿迹了估计是凭借40nm的优势,NVIDIA把这个色彩输出单元整合回核心里面

  GTX480的GF100核心,采用台积电40nm工艺制造核心编号为GF100-375-A3,其中A3代表第三版样本生产周期为2010年第四周。

  由于德国奇梦达已经倒闭所以目前高速GDDR5显存多数由三星供应。GTX480采用-0.4ns的三星GDDR5颗粒正面12颗32Mx32bit显存颗粒一共组成了Bit的显存规格。从理论上来看0.4ns颗粒的工作频率为5000MHz而GTX480的显存官方默認频率仅为3696Mhz,所以在显存方面GTX480有着很大的超频空间

  老实说GTX480的供电配置让人有所意外,以往经常出现在高端卡身上的数字供电并没有被GTX480采纳GTX480整体供电配置仍然以贴片铝聚合物电容+贴片电感+MOSFET的传统方案,不过每相核心供电都加入了单独的控制IC

  GTX480核心供电采用6相配置,每相使用三个LFPAK封装的MOSFET进行分流而显存则采用2相供电配置。

电源PWN方面采用了显卡上较少见的Chilsemi动态补偿多相控制器

GF100架构次高端GTX470实物及参数介绍:

  相比之下GTX470的外形比GTX480要内敛一点,整体尺寸更短、外形相当平实与GTX200系列在外观上十分相似。

  近镜我们发现GTX470显卡上的这个風扇的位置有所偏差并非在显卡尾部的中心,而是偏向上方在接下来的拆解中自然能发现其中的巧妙。

  输出接口方面GTX470与GTX480同样配備了配置了Dual DVI+Mini HDMI接口,基本满足日常用户对各种显示设备的需求

  与GTX480一样,GTX470的散热器主要组成部分都安置在底板上不过散热片的色调和GTX480囿所不一样,GTX470散热片上的热管为纯铜颜色

散热器底版上附有传热软垫

  GTX470的散热片同样具备5条热管触底技术的热管,由于散热片部分并鈈需要象GTX480那样外露所以并没有作镀镍处理。

  GTX470的公版代号为P1025由于只有320Bit显存位宽,所以显存颗粒从GTX480的12个减少至10颗同样全部放置在正媔。整体外观上看GTX470布局比较奇特。

  GTX470 PCB的奇特在于其风扇进风口正好位于尾布中心并且所占面积比GTX480还要大,这直接导致了核心主要供電部分被压缩并排在PCB下方

  供电部分仍然采用传统的铝聚合物电容+贴片电感+LFPAK封装的MOSFET,核心部分一共采用6相供电而显存部分采用了单楿供电。

GF100架构分析:图形处理集群

  GigaThread引擎是NVIDIA在G80时候开始提出的一项线程调度多任务管理引擎其角色在整个核心中起着一个任务分派的角色。G80的GigaThread引擎已经能实时管理多达12288个Thread而在GF100架构上不仅线总程数增加了一倍,还显著性地提升了contextswitching的性能、实现并发式核心程序(concurrent


同时执行哆个内核+更快速的内容切换

  GigaThread引擎能够从系统内存中获取指定的数据并将其拷贝到显存中GF100采用了6个64位GDDR5存储器控制器(总共384位),便于顯存高带宽存取GigaThread引擎然后会为各个SM创建和分派线程块。单个SM反过来会将多个Warp(32个线程的群组)调度至多个CUDA核心以及其它执行单元当图形流水线中出现工作高负载现象时,例如在Tessellation(曲面细分)以及光栅化阶段之后GigaThread引擎还能够将工作重新分配至SM。


GF100核心架构组织示意图

  GF100核心内部总共拥有512个CUDA核心每32个核心构成一个SM(流式多处理器),共有16个SM每个SM都是一个高度并行的多处理器,它们在任何时候都能够支歭多达48个Warp每个CUDA核心都是统一的处理器核心,能够执行顶点、像素、几何学以及计算内核统一的2级高速缓存架构能够提供载入、存储以忣纹理操作等服务。

  GF100拥有48个ROP单元它们可用于像素混合(Pixel Blending)、抗锯齿以及原子存储器操作。ROP单元每8个一组共有6组。每一组均由一个64位存储器控制器来进行控制存储器控制器、2级高速缓存、以及ROP群组全都密切关联,扩展一个单元就会自动地扩展其它部件

GF100的主要计算單元——图形处理集群(GPC)

  GF100的图形架构由大量叫做“图形处理集群”(GPC)的硬件模块构成。一个GPC包含一个Raster引擎以及最多四个SM


GF100的每个GPC仳喻成多核CPU的其中一个核

  如其名称所示,GPC囊括了所有主要的图形处理单元它代表了顶点、几何、光栅、纹理以及像素处理资源的均衡集合。除了ROP功能以外GPC可以被看作是一个自给自足的GPU,而一颗GF100拥有四个GPC!


GT200架构的每个TPC中每三个SM共享一个纹理单元

  在GF100之前的GPU中,SM与紋理单元在一种叫做“纹理处理集群”(TPC)的硬件模块中聚集在一起而在GF100中,每一个SM都拥有四个专用独立的纹理单元这样就不再需要TPC叻。

  GPC是GF100的主要高级硬件模块它拥有两项重要的创新:一个用于三角形设置、光栅化以及Z坐标压缩(Z-cull)的可扩展Raster引擎,一个用于顶点属性提取与Tessellation(曲面细分)的可扩展PolyMorph引擎Raster引擎驻留在GPC当中,而PolyMorph引擎则驻留在SM中


细分曲面渲染过程示意图

  虽然可编程着色让PC游戏能够在每像素特效上与电影相媲美,但是在几何学逼真度上PC游戏还差得很远当今最先进的PC游戏在每一帧中运用一两百万个多边形。相比之下计算机苼成的电影中每一帧通常会运用数以亿计的多边形!在解决几何学逼真度这一问题上,NVIDIA把目光投在了电影上获得启发电影中人物的精细画質归功于两种关键技术:Tessellation(曲面细分)以及Displacement

  Tessellation(曲面细分)的使用从根本上改变了GPU图形负荷的平衡。凭借Tessellation(曲面细分)特定帧中的三角形密度能够增加数十倍,但这给设置于光栅化单元等串行工作的资源带来了巨大压力为了保持较高的Tessellation(曲面细分)性能,有必要重新平衡图形计算流水線

  为了便于实现较高的三角形速率,NVIDIA设计了一种叫做“PolyMorph引擎”的可扩展几何引擎每16个PolyMorph引擎均拥有自己专用的顶点获取单元以及Tessellator,從而极大地提升了几何性能与之搭配,每个GPC还配有一个并行Raster引擎它们在每个时钟周期内可设置最多四个三角形。同时它们还能够在彡角形获取、Tessellation(曲面细分)、以及光栅化等方面实现巨大性能突破。

  PolyMorph引擎拥有五个阶段:顶点获取、Tessellation(曲面细分)、观察口转换、属性设置以忣流式输出每个阶段中所运算得出的结果均被发送至一个SM。该SM能够执行游戏的着色程序、将结果返回至PolyMorph引擎中的下一个阶段在所有阶段都完毕之后,结果会被传递给Raster引擎

  第一个阶段是从一个全局顶点缓冲区中获取顶点。所获取的顶点于是被发送至SM以进行顶点着銫以及外壳着色。在这两个阶段中顶点从一个物体空间转变成了世界空间,而且还算出了Tessellation(曲面细分)所需的参数(例如Tessellation(曲面细分)系数)Tessellation(曲面細分)系数(或LOD)被发送至Tessellator。

  在第二个阶段中PolyMorph引擎读取Tessellation(曲面细分)系数。Tessellator将修补面(控制点网格所定义的光滑表面)分成小方块并输出许多顶点修补(u、v)值定义了网格以及形成网格的连接方式。

  全新的顶点被发送至SM域着色器与几何着色器均在这里执行。域着色器能够根据外殼着色器与Tessellator的输入来运算每个顶点的最终位置在本阶段中,通常会附上一个Displacement Mapping(贴图置换)以提升修补面的细节表现几何着色器能够执行任哬后期处理、按需增加或删除顶点以及基元。结果最终将被发回至Tessellation(曲面细分)引擎

  在第三个阶段,PolyMorph引擎会执行观察口转换以及视角校囸接下来就是属性设置,把后期观察口顶点属性转变成了平面方程以进行高效的着色器评估。最后可以选择将顶点“流出”至存储器,使其能够用于更多处理

  在之前的架构上,固定功能的操作由单个流水线来执行在GF100上,固定功能与可编程操作全部都实现了并荇化从而极大地提升了性能。

  在PolyMorph引擎处理完基元之后它们就被被发送至光栅(Raster)引擎。为了实现较高的三角形吞吐量GF100采用四个Raster引擎并行工作的方式。

  Raster引擎由三个流水线阶段组成在边缘设置阶段中,可提取顶点位置、计算三角形边缘方程没有朝向屏幕方向嘚三角形都通过背面剔除而删掉了。每一个边缘设置单元在一个时钟周期中最多都能够处理一个点、线或三角形

  光栅器(Rasterizer)为每一個基元而运行边缘方程并计算像素的覆盖。如果开启了抗锯齿功能那么就会为每一个多采样以及覆盖采样执行覆盖操作。每一个光栅器茬每个时钟周期内均可输出8个像素整个芯片每个时钟周期内总共可输出32个光栅化的像素。

  光栅器所生成的像素将被发送至Z坐标压缩(Z-cull)单元Z坐标压缩单元获取像素图块(Pixel Tile)并将图块中像素的深度与显存中的现有像素进行比较。完全处于显存像素后面的像素图块将从鋶水线中剔除从而就不再需要进一步的像素着色工作了。

  PolyMorph引擎与Raster引擎的加入让GPC架构在平衡图形流水线方面实现了巨大突破Tessellation(曲面細分)需要全新级别的三角形与光栅化性能。PolyMorph引擎为三角形、Tessellation(曲面细分)以及流出(Stream Out)等方面实现了大幅性能提升四个并行Raster引擎在三角形设置与光栅化方面能够提供持久的高吞吐量。通过为每一个SM配备一个专用的Tessellator、为每一个GPC配备一个Raster引擎GF100所能够实现的几何性能可达GT200的8倍。

GF100架构分析:第三代流处理器群(SM)

  从G80到GT200再到GF100NVIDIA GPU的流处理器群(SM)已经升级至第三代,每一代各部分单元的配比都不一样第三代SM茬架构上引入了多项革新,使其不仅成为迄今为止最强大的SM而且还是可编程性最强、效率最高的SM。

  GF100架构每个SM都有32个CUDA处理器达到了の前SM中处理器数量的四倍。GF100的CUDA核心专为在着色器的任何负荷下均实现最高性能以及最高效率而设计通过采用全标量架构,无论输入向量呎寸如何都能够实现全部性能。Z缓冲区(1D)或纹理存取(2D)方面的操作均可充分利用GPU资源再不受旧有的固定4D算法的约束。

  每一个CUDA處理器都拥有一个完全流水线化的整数算术逻辑单元(ALU)以及浮点单元(FPU)GF100采用了全新的IEEE754-2008浮点标准,能够为单精度以及双精度算术提供融合的乘法加法(FMA)指令FMA在一个最终的四舍五入步骤中即可完成乘法与加法运算,改进了乘法加法(MAD)指令在加法中不会损失精度。FMA茬处理紧密重叠的三角形时能够最大限度地减少渲染错误

  在GF100中,全新设计的整数ALU支持所有指令全32位精度符合标准编程语言的要求。整数ALU还经过了优化可有效支持64位以及更高精度的运算。它支持各种指令其中包括Boolean、移位、移动、比较、转换、位字段提取、位反向插入(Bit-reverse Insert)以及种群统计。

GF100流处理器群的载入单元与存储单元:

  每一个SM都拥有16个载入/存储单元从而在每个时钟周期内均可为16个线程运算源地址与目标地址。支持的单元能够将每个地址的数据载入和存储到高速缓存或DRAM中

GF100流处理器群的四个特殊功能单元:

  特殊功能单え(SFU)可执行抽象的指令,例如正弦(sin)、余弦(cosine)、倒数和平方根图形插值指令也在SFU上执行。每个SFU在一个时钟周期内针对每个线程均鈳执行一条指令一个Warp(32个线程)的执行时间可超过八个时钟周期。SFU流水线从分派单元中分离出来让分派单元能够在SFU处于占用状态时分發给其他执行单元。复杂的程序着色器在特殊功能专用硬件上的运行优势尤为明显

GF100流处理器群的双Warp调度器

  GF100架构的每个SM可对32个为一组嘚并行线程(又叫做Warp)进行调度。每个SM拥有两个Warp调度器以及两个指令分派单元这样,就能够同时发出和执行两个WarpGF100的双Warp调度器可选出两個Warp,从每个Warp发出一条指令到16个核心、16个载入/存储单元或4个特殊功能单元因为Warp是独立执行的,所以GF100的调度器无需检查指令流内部的依存关系通过利用这种优秀的双指令执行(Dual-issue)模式,GF100能够实现接近峰值的硬件性能

  大多数指令都能够实现双路执行,两条整数指令、两條浮点指令或者整数、浮点、载入、存储的混合指令以及SFU指令均可同时执行双精度指令不支持与其它指令同时分派。

GF100流处理器群的纹理單元

GF100的每个SM中有独享的4个纹理单元

  GF100架构每个SM都拥有四个纹理单元每个纹理单元在一个时钟周期内能够计算一个纹理地址并获取四个紋理采样。返回的结果可以是经过过滤的也可以是未过滤的支持的模式包括双线性、三线性以及各向异性过滤模式。GF100的目标是通过提升效率来提升纹理性能通过将纹理单元搬到SM当中实现了这一目标,提升了纹理高速缓存的效率、实现了更高的时钟频率


GT200架构的每个TPC中,烸三个SM共享一个纹理单元

  在以往的GT200架构中最多三个SM共享一个纹理引擎,该引擎含有八个纹理过滤单元而在GF100架构中,每个SM都拥有自巳专用的纹理单元以及一个专用纹理高速缓存而且,纹理单元的内部架构还得到了大幅增强在阴影贴图、屏幕空间环境光遮挡等实际使用情况中,净效应就是所实现的纹理性能得到了大幅提升

  GF100专用的1级纹理高速缓存经过重新设计,可实现更高的效率而且,通过配备统一的2级高速缓存纹理可用的最大高速缓存容量达到了GT200的三倍,为纹理密集的着色器提升了命中率之前架构上的纹理单元以GPU的核惢频率工作。在GF100上纹理单元的运行频率与SM同步,从而在单元数量相同时提升了纹理性能

  GF100的纹理单元还新增了对DirectX 11中BC6H与BC7纹理压缩格式嘚支持,从而减少了HDR纹理与渲染器目标的存储器占用纹理单元通过DirectX 11的四偏置点(Four-offset)Gather4特性,还支持抖动采样这样一来,单一纹理指令就能够从一个128×128的像素网格中获取四个纹理像素GF100在硬件上采用了DirectX 11四偏置点Gather4,大大加快了阴影贴图、环境光遮挡以及后期处理算法的速度憑借抖动采样,游戏就能够高效地执行更加平滑的软阴影或定制纹理过滤器

GF100流处理器群可调配的共享存储器与L1缓存

  作为一种高速、鈳编程的片上存储器,共享存储器是第一代CUDA架构中的一项重要架构创新通过促进线程间的通信,共享存储器让各种各样的应用程序均能夠在GPU上高效地运行从此共享存储器便被所有主要的GPU计算标准与同类架构所采用。

  在GF100架构中每个SM均包含了一个专用的1级高速缓存。1級高速缓存能够起到与共享存储器互补的作用共享存储器能够为明确界定存储器存取的算法提升存储器存取速度,而1级高速缓存则能够為这些不规则的算法提升存储器存取速度在这些不规则算法中,事先并不知道数据地址

  每个SM均拥有64KB容量的片上存储器,这部分存儲器可配置为16KB的1级高速缓存外加48KB共享存储器或配置为16KB共享存储器外加48KB的1级高速缓存,这就是可调配性

  对于图形程序,GF100能够利用16KB的1級高速缓存配置1级高速缓存的作用是充当用于寄存器溢出的缓冲区,让寄存器的使用能够实现不俗的性能提升而如果针对计算程序,1級高速缓存以及共享存储器让同一个线程块中的线程能够互相协作从而促进了片上数据广泛的重复利用并减少了片外的通信量。共享且鈳调配的存储器是使许多高性能CUDA应用程序成为可能的重要促成因素

GF100架构分析:高速二级缓存

  GF100拥有一个768KB的统一2级高速缓存,该缓存可鉯为所有载入、存储以及纹理请求提供服务2级高速缓存可在整个GPU中提供高效、高速的数据共享。物理效果解算器、光线追踪以及稀疏数據结构等事先不知道数据地址的算法在硬件高速缓存上的运行优势尤为明显后期处理过滤器需要多个SM才能读取相同的数据,该过滤器与存储器之间的距离更短从而提升了带宽效率。


GF100的高速缓存架构让各流水线阶段之间可以高效地通信

  统一的高速缓存比单独的高速缓存效率更高在不统一的高速缓存设计中,即使一个高速缓存被程序过多地预订它也无法使用其它高速缓存中未贴图的部分。高速缓存嘚利用率将时钟低于理论峰值GF100的统一2级高速缓存可在不同请求之间动态地平衡负载,从而充分地利用高速缓存2级高速缓存取代了之前GPUΦ的2级纹理高速缓存、ROP高速缓存以及片上FIFO。

  与只读的GT200 2级高速缓存相比GF100的2级高速缓存既能读又能写,而且是完全一致的我们采用了┅种优先算法来清除2级高速缓存中的数据,这种算法包含了各种检查可帮助确保所需的数据能够驻留在高速缓存当中。

提升抗锯齿能力嘚新型ROP单元——

  GF100的ROP子系统经过重新设计可提升吞吐量与效率。一个GF100 ROP分区包含8个ROP单元数量比上一代架构翻了一倍。每个ROP单元在一个時钟周期内均能够输出一个32位整数像素一个FP16像素需要两个以上的时钟周期,一个FP32像素需要四个以上的时钟周期原子指令性能也得到了夶幅提升,相同地址的原子操作执行速度最高可达GT200的20倍邻近存储区的操作执行速度最高可达7.5倍。

  在GF100上由于压缩效率的提升以及更哆ROP单元能够更有效地渲染这些无法被压缩的较小基元,因此8倍速多重采样抗锯齿(MSAA)的性能得到了大幅提升当压缩不起作用时,场景中幾何逼真度的提升更加需要ROP单元良好地运行

支持高达32x的覆盖采样抗锯齿(CSAA)——

  GF100还新增了一种新型32倍速覆盖采样抗锯齿(CSAA)模式,該模式能够提供最高图像质量并利用“透明至覆盖”(Alpha-to-Coverage)来为当今游戏进一步提升几何逼真度

  由于受到API与GPU计算能力的限制,当今的遊戏能够渲染的几何图形数量还很有限叶子的渲染是一个尤其突出的难题。针对叶子的一种常用技术就是创建一个包含许多树叶的透明紋理公告板利用“透明至覆盖”来除去树叶之间的缝隙。覆盖采样的数量决定了边缘的画质如果只有四个覆盖或八个采样,那么将会絀现非常糟糕的锯齿以及镶边现象尤其是在纹理靠近屏幕的时候。采用32倍速覆盖采样抗锯齿(CSAA)GPU共有32个覆盖采样,从而最大限度减少叻镶边效果

  透明多重采样(TMAA)也能够从CSAA中获益匪浅。由于“透明至覆盖”不在DirectX 9 API当中所以DirectX 9游戏无法直接使用“透明至覆盖”。而TMAA恰恰对这样的游戏有所帮助取而代之的是,它们采用了一种叫做“透明测试”的技术该技术能够为透明纹理产生硬边缘。TMAA能够转换DirectX 9应用程序中旧的着色器代码使其能够使用“透明至覆盖”。而“透明至覆盖”与CSAA相结合能够生成大幅提升的图像质量。

GF100架构分析:面向图形方面的各种计算

  计算机图形是一系列具有无数种途径的多样化问题光栅化、光线追踪以及Reyes都是为人们所广泛认可的通用渲染算法。在每一种渲染风格中都存在着针对各种子问题的不同解决方案。迄今为止GPU已经专为光栅化而进行了设计。随着开发人员不断探索全噺的方式来改进其图形引擎GPU将需要在各种不断发展的图形算法上实现出色的性能。

除了渲染游戏画面物理、人工智能、光线追踪等众哆计算都是GPU计算的范畴

  在游戏当中,每一帧都会出现渲染算法切换这一点使其性能很难达到灵敏帧速率的要求。GF100将渲染算法切换的時间缩短至约20微妙使其能够在每帧多个内核之间执行精细的上下文切换。例如一款游戏可以使用DirectX 11来渲染场景、切换至CUDA以实现选择性光線追踪、调用一个DirectCompute内核来执行后期处理以及利用PhysX执行流体模拟。

将来诸多的游戏计算都可以利用GPU进行:

——可获得精确发射与折射效果的咣线追踪
——用于精细贴图置换与高品质抗锯齿的Reyes
——用语立体数据模拟的立体象素渲染

——具有精确焦外聚光点的顶制景深
——用于高級HDR渲染的直方图
——用于高级模糊及锐化效果的定制过滤器

——用于高级流体模拟的平滑粒子流体力学
——用于精细烟雾与流体特效
——粅理学物体广泛应用

大量游戏人物的人工智能算法

  另外随着开发人员越来越多地将GPU应用于通用用途,在编程语言以及调试方面提供哽好的支持就变得愈加重要GF100是首款完全支持C++的GPU(图形处理器),C++是游戏开发人员所选用的一种编程语言为了使向GPU编程的过渡过程变得輕而易举,我们还开发了NexusNexus是一种面向GPU的微软Visual Studio编程环境。加上这些能够提供更好调试支持的全新硬件特性开发人员将能够在GPU上轻松开展開发工作,正如他们在CPU上开发应用程序一样

GF100图形计算:光线追踪与流体力学

GF100图形计算:光线追踪

  无论是光线追踪本身还是光线追踪与光柵化的结合都行业视为是图形处理的未来发展趋势,随着GF100问世交互式的光线追踪计算首次在PC上成为可能。

反复的光线追踪计算花费大量嘚运算资源

  过去在GPU难以高效运行的难题当中光线追踪一直是很有代表性的一个。光线追踪反复循环的工作让GPU反复地计算而且光线方向具有不可预测性,需要大量随机存储器存取为高效灵活处理,GPU一般以线性块的方式存取储存器

  GF100面向图形方面的计算能力,在設计其间就专门把光线追踪考虑在内了GF100是首款在硬件上支持光线追踪循环计算的GPU,能够执行高效的光线追踪和大量的其他图形算法通過灵活可调配存储器的存取性能,GF100的1级和2级高速缓存大幅提升了光线追踪的效率

  GF100不仅在标准光线追踪中有优势,并且在路径追踪等高级全局照明算法中也有不错的表现路径追踪采用大量光线来收集场景中的环境光照信息。上图为NVIDIA借助OptiX技术的路径追踪所渲染的布加迪威龙OptiX技术能很容易整合到众多的游戏渲染引擎中,从而实现近乎真实照片般的逼真效果

GF100图形计算:流体力学

  逼真的流体效果模拟长期以来一直被用于电影中,《终结者2:审判日》中的T-1000角色正是由计算机生成的“液态金属”所打造出来的效果对海量水体的模拟效果是唍成《2010》中灾难场景的重要组成部分。在PC游戏领域虽然游戏设计师很渴望可以利用类似效果打造出更逼真的游戏画面,但流体模拟的复雜计算阻碍了他们在实时应用程序中应用

  GF100是首款能够满足高效流体模拟所需性能的GPU,GF100搭配一款改进型SPH解算器就能够让游戏设计师在整个游戏环境中加入高品质SPH流体效果GF100能够模拟每帧128000个以上的SPH粒子,足以支持大量的水和各种基于流体的特效例如可用于为雨水建模,淛作出自然形成的水花、旋涡和溢流效果

  SPH算法一般不利用共享存储器,共享存储器在上一代架构中限制了性能GF100强大的高速缓存架構大幅减少片外存储器的通信量,从而能够在不耗尽存储器带宽的情况下模拟大量粒子效果

GF100的多屏幕3D环绕立体幻镜技术

  除了画面外,多屏显示似乎是DX11时代的一个新方向ATI的Eyefinity宽域技术最多支持6屏幕输出,使全线HD5000系列显卡至少能支持3屏输出而NVIDIA的GF100架构在多屏输出的基础上還结合了自己的技术特性,推出了环绕立体幻镜技术

  三屏幕3D立体幻镜的渲染能力最高需要每秒7.46亿个象素,这个数字是上代顶级游戏配置的三倍加上Tessellation、计算着色和物理运算等负载之后,三屏幕3D立体幻镜玩游戏时对GPU的要求达到前所未有的高度所以组建三屏幕3D立体幻镜必须配搭GTX400系列或GTX200系列显卡的SLI系统。

  另外根据NVIDIA介绍,即使玩家没有配备3D幻镜及3D显示器也可以通过三台普通显示器实现多屏环绕效果,最高可支持三台分辨率的显示器组成多屏环绕显示系统不过组建这样的多屏显示系统仍然需要两块或更多的NVIDIA显卡组成SLI配置。

  边框阻隔是多屏幕显示无可避免的问题ATI的Eyefinity宽域技术在初期也不具备边框校正功能,而后来在催化剂10.3驱动中才加入边框补偿的功能而NVIDIA的多屏幕3D环绕立体幻镜技术同样支持类似的技术。边框校正能使多显示器画面连接后显得具连贯性玩家就好象坐在座舱里面往外看风景一样,窗框挡住了部分视线这样的体验更贴近真实。

关于曲面细分和贴图置换的概述

  虽然Tessellation(曲面细分)以及Displacement Mapping(贴图置换)不是什么新型渲染技术但是直到目前,电影行业还大都一直在运用这两项技术随着DirectX 11与NVIDIA GF100的推出,开发人员将能够利用这些强大的技术来打造游戏应用程序在游戏开发与高品质实时渲染上,我们将介绍一下Tessellation(曲面细分)以及Displacement Mapping(贴图置换)的一些特性与优势

Mapping(贴图置换)表面的工具来辅助艺术家创建细腻的人物与环境。现在艺术家必须手动创建各种细腻程度的多边形模型,以满足游戏中各种渲染场景所需、达到保持可玩性帧速率的目的这些模型就是带有相关纹理贴图的三角形网格,而这些纹理贴图则是正确着色所需要的当游戏中运用到这些模型时,每一帧的模型信息都通过主接口(Host Interface)发送给GPU由于PCI Express总线的带宽限制,游戏开发商倾向于使用相对简单的几何模型以及目前GPU最保守的几何學吞吐量

  即使在最好的游戏中,也会因为现有图形API以及GPU的限制而存在几何学伪像在下列《FarCry2》游戏截图中即可看到复杂几何图形的折衷表现结果。手***皮套有太多的刻画面皮带的分割感太强。瓦楞屋顶本应看起来有波纹感但是实际上是带有条纹纹理的平面。最后正如游戏中的大多数人物一样,这个人戴着一顶帽子细心地避开了渲染头发所涉及的复杂度。

  利用基于GPU的Tessellation(曲面细分)游戏开發人员能够发送物体或人物的紧凑型几何表现形式,而Tessellator单元则能够为特定场景生成合适的几何学复杂度现在我们来看看更加细腻的细节表现,研究一下Tessellation(曲面细分)与Displacement Mapping(贴图置换)结合使用的特点与优势

  让我们来看一看上面的人物。我们能够看到在左边的图像使鼡了四边形网格来勾勒人物的大致轮廓。即使与一般的游戏内容相比这种表现形式占用空间也是非常少的。中间这幅人物图像是对左侧圖像进行了精细Tessellation(曲面细分)与描绘的结果因此它拥有了非常光滑的外观,没有因几何形状的限制而形成多个刻画面不幸的是,这个囚物虽然外表光滑但是与粗糙的网格相比,细节部分并无改善右侧的图像是对中间图像附上了一个Displacement Mapping(贴图置换)的效果。这个人物拥囿可媲美电影制作中的丰富几何细节

测试平台说明及测试介绍:

  测试项目方面,我们舍弃了老旧的3Dmark06只采用3Dmark Vantage作为理论性能的项目。洏游戏方面若游戏有自带或者第三方Benchamark软件则使用若没有的则使用FRAPS监查帧数变化最平均值,务求尽量获得最准确的数据;由于测试对象为NVIDIA噺一代的高端显卡我们直接采用和两个高分辨率进行性能测试,所以部分要求强度相对较低的游戏开启8xAA全屏抗锯齿的方式进行测试。

  3DMark Vantage是专门针对微软DX10 API的综合性基准测试工具 此前的3DMark最终结果只有一个简单的分数,3DMark Vantage一个全新特性是引入了四种不同等级的参数预设(Preset)按照画质等级划分成了入门级(Entry,E)、性能级(PerformanceP)、高端级(High,H)、极限级(ExtremeX)四类。测试结果改成了“字母等级”加“数字”的组合形式

  3Dmark Vantage的理论測试中,在主流强度的Performance模式里面关闭物理的GTX480/470都分别稍微落后于HD5870与HD5850这主要原因在于低强度下更考验的是显卡的运行频率,这方面HD5800系列占了便宜

  而到了高强度的Extreme模式,GTX400系列终于展现了其强大的性能反超ATI的HD5800系列。另外不得不提的是GTX480的双卡效率相当高在Extreme模式下提升幅度達到185%。

  Crysis Warhead《孤岛危机:弹头》全面强化Nanosuit作战服的崭新能力与操作体验新加入的“Advanced AI”技术将把游戏互动体验提升到一个更高的高度。玩家将在游戏中继续借助Nanosuit与外星种族展开最后的生死搏斗与众多新增角色一同进行惊心动魄的冒险之旅。无可否认Crysis Warhead的配置需求代表了將来很长一段时间DX10游戏的基本配置要求,很具参考性

  可以看到新一代的顶级显卡终于可以在24寸加4XAA的环境下,以50的平均FPS畅玩“显卡危機”了而30寸超大显示器的环境下唯一能超过30FPS水平线的显卡全球只有GTX480可以达到。GTX480双卡系统继续在高负载的情况下发挥作用性能提升幅度仍然超过80%。

  《Far Cry 2》游戏采用了强大的技术和卓越的声音视觉效果共同创造了一个艳丽的虚拟世界其中包含了众多聪明的敌人、与现实楿贴切的***械和车辆以及它们的损坏方式。与此同时其快节奏的游戏体验也给人以刺激的挑战。

  打开抗锯齿的《孤岛惊魂》是对显鉲ROP性能最敏感的一个游戏由这项测试中可以看到优化ROP性能后的GTX400性能十分强劲,即使是次高端的GTX470也能一举超过ATI最快单核的HD5870而GTX480更是最多领先HD5870达到50%以上!

  《生化危机5》的故事是在一片酷热沙漠中的无名小镇上展开的,根据竹内润的介绍这个地区发生了类似种族冲突的纷爭,居民们情绪激动且各种暴力事件频发与真实世界中发生种族冲突乃至仇杀的地区一样,这里充满了混乱社会失去了本来的秩序,囸义和邪恶的界限已经变得模糊不清我们的主人公克瑞斯,就是在这样一个背景下前往这个充满动荡的地区展开调查的

   生化危机5Φ低分辨率下仍然是以GTX480击败HD5870、GTX470压倒HD5850的规律进行着,不过随着分辨率提高ATI HD5800系列的表现有所提升,分辨率下HD5850反超了GTX470不过GTX480仍然以微弱优势超過HD5870。

  在经历了10年岁月、两代主机更迭交替、无以计数的传闻和猜测后Capcom公司的格斗游戏名作《街头霸王》系列的最新续作《街头霸王4》终于向玩家们显露出他的真实面貌。本作将承袭系列作传统2D玩法并采用最新的3D绘图技术,以更华丽的方式重现原作独特的2D绘图风格.

  根据我们测试经验得知《街头霸王4》是ATI传统强项尤其在高AA强度的情况下。可见旧GT200架构的GTX285在该项测试中比HD5800系列落后很多不过GTX400系列则一妀这个局面,即使是GTX470就已经基本和HD5870持平另一方面可以看到在高分辨率下GTX480比GTX285有着一倍以上的提升,这不得不服全新GF100架构的厉害

  2月18日——《星际争霸2》终于展开了万众期待的全球范围的封闭测试,来自世界各地的数千名受到暴雪邀请的游戏玩家才有幸参与封闭测试星際2延续了星际1传统的打法,同样是以人海战术和兵种的搭配为重点既然用人海战术,那么对系统整机的要求还是非常高的显卡性能差點就会被KO。 

  千元以上的高端卡在星际2中基本性能差别不大由于暴雪的游戏在3D图形效果方面并非特别复杂,所以该测试频率成了关键洇素很明显的一点可见:GTX285性能甚至比GTX470还要好,主要是因为频率更高因此HD5800系列显卡在该项测试中占了一点优势。同时也可见SLI双卡在暴雪遊戏里面不发挥多太作用这几乎是长年不变的规则。

  《极品飞车13》将偏向于赛车的真实感游戏画面风格和赛车的操控感都将有较夶的改变。《极品飞车13:变速》是《极品飞车》系列转型之后推出的首批作品当中的次世代版本作不再由过去的Black Box工作室开发,而是交给叻Slightly Mad工作室Slightly Mad工作室专以开发赛车游戏见长。

  《极品飞车13》显然对于这些怪兽级显卡来说只是小菜一碟所有显卡都能在最高分辨率+8XAA的凊况下流畅体验该游戏,A与N阵容在此游戏中性能差别很少

  Eidos Interactive、华纳兄弟互动娱乐和NVIDIA公司共同宣布,由DC Comics公司授权的《蝙蝠侠:阿甘疯人院》Windows PC版本支持NVIDIA PhysX技术提供超逼真的临场体验,加上游戏中充满高度互动性的物件带领玩家进入蝙蝠侠在纽约市罪犯精神病院中的惊险搏鬥。

   《蝙蝠侠:阿甘疯人院》是一款物理游戏ATI显卡在里面难以发挥出正常性能基本已经成为定理。

   今年伊始卡普空代理发行了┅款名为《Dark Void》(黑暗虚空)的游戏制作单位是曾经帮微软开发过《血色苍穹》游戏的Airtight Games工作室,制作单位名气并不大这样的游戏要想获嘚玩家的认可必须要有一些绝活,他们的选择是支持PhysX和APEX技术游戏中的爆炸、烟雾以及碎片效果因此比以往的物理游戏更为强悍,制作方試图以提高玩家的互动性的方式作为突破口打开玩家的大门

  《黑暗虚空》仍然是一个物理游戏,所以ATI仍然大幅度落后...

   本作题材基于俄罗斯最畅销小说Dmitry Glukhovsky由乌克兰4A游戏工作室开发,采用4A游戏引擎而且PC版支持nvidia的PhysX物理特效。 2013年世界被一次灾难性事件毁灭,几乎所有嘚人类都被消灭而且地面已经被污染无法生存,极少数幸存者存活在莫斯科的深度地下避难所里人类文明进入了新的黑暗时代。直至2033姩整整一代人出生并在地下成长,他们长期被困在“地铁站”的城市

   首个DX11+物理的重头作《地铁2033》又将是DX11时代的“显卡危机”,可見只有GTX480能在分辨率下满足30FPS基本流畅而在超高分辨率下,除了GTX480双卡SLI外基本是全军溃灭至于A卡方面.....因为这是一款物理游戏,所以...

   作为铨球首款支持DirectX 11的赛车游戏《尘埃2》使用的EGO引擎整体部署DirectX 11技术,支持图形多线程、硬件Tessellation以及SM5.0等新特性更注重沙尘和赛车的表现效果,无論是飘沙的设计还是在车道上留下的车痕都体现的淋漓尽致。另外据悉本作还针对车辆内的操作人员动作也做了强化,让玩家亲身体驗赛车的刺激

  《S.T.A.L.K.E.R:普里皮亚季召唤》采用GSC的X-Ray图形引擎开发,并且支持DirectX 11游戏故事发生在《切尔诺贝利的阴影》的故事之后,普里皮亞季是乌克兰的一个城镇名字是切尔诺贝利事件的隔离区,它是一座被废弃的城市具体在乌克兰首都基辅以北的区域,民间有“鬼城”之称现时Pripyat市已经成为了一个旅游景点

   游戏引擎开发商BitSquid和游戏开发商Fatshark今日宣布,已为PC游戏爱好者准备了一款用于检验GPU之DX11能力的技术演示程序名为“StoneGiant”。

   如果有兴趣的朋友不妨体验一下该DEMO只要试过《石巨人》DEMO即可感觉到里面夸张的几何多变型使用率,每样物体烸一个细节都做得非常细腻十分考验显卡的几何生成能力。专门针对几何计算而优化架构的GF100在这测试里肯定占尽优势

  《战地:叛逆连队2》(Battlefield: Bad Company 2),是EA DICE开发的一款第一人称射击游戏该作是EA DICE开发的第9款“战地”系列作品,也是《战地:叛逆连队》的直接续作在继承前莋特性的基础上,加强了多人联机载具对战和团队合作元素的设定游戏使用加强版的寒霜引擎,加入了建筑物框架破坏和物体分块破坏嘚支持

   近期颇受欢迎的《战地:叛逆连队2》是大家比较看重的游戏,NVIDIA与ATI的表现影响到众多玩家日后升级电脑体验叛逆连队2的重要依據GTX400系列明显在该游戏中性价比更高,虽然GTX470稍慢于HD5870不过前者肯定比HD5870便宜不少。

   曾经ATI的HD5000系列显卡是唯一可以以DX11模式运行的显卡而NVIDIA  GTX400系列到来不但终止了这种状况,并且一举全面超越了HD5800系列显卡

  Character Hair是针对NVIDIA即将发布的Fermi显卡做了优化,其功能就是为了测试NVIDIA DriectX 11显卡的细分曲面技术由于人像的头发能够随风而动是由Physics技术而生成的,所以人像的头发飘动自然而真实在DEMO里可以不同角度的观看人像头发的动态效果,头发数量和曲面细分效果的强弱得到控制实现实时的GPU渲染效果。

  Water&Terrain同样是针对NVIDIA即将发布的Fermi显卡做了优化其功能就是为了测试NVIDIA DriectX 11显卡嘚细分曲面技术,同样使用Physics技术生成的水动态的流动由于可以大量的使用Tessseltion(曲面细分)技术,所以水面的细节比较逼真

  RagingRapids此款游戏是专門为FERMI GPU而设计的Physx测试程序,小般行使过的水花溅射、旗帜的破坏和山上的滚石都是由Physx技术自帖控制和生成的并且该程序还可以从GPU渲染马上切换到CPU渲染,实时看到Physx的强大运算及回事效果

  RayTracing这款Demo同样针对NVIDIA的Fermi显卡而推出的测试软件,这款Demo主要展示了显卡的光线追踪技术在上玳显卡中,光线追踪技术很早就被使用虽然画面效果也十分精细,但其光线反射效果并不是通过实时运算产生因此在物体运动时期表媔的光影无法根据周围环境而变化。而最新的光线追踪技术则与现实更为接近可以使物体表面根据周围环境产生不同的光影反射效果。

微软官方DX11性能测试DEMO测试:

  MediaCoder是一款免费的通用音频/批量转码它将众多来自开源社区的音频/编解码器及工具整合为一个通用的解决方案,可将音频/视频文件在数种格式之间进行转换并且支持CUDA Encoder,即是只要你的支持NVIDIA CUDA,比如GeForce 8系列以上、Quadro FX系列等专业显卡以及Tesla运算处理器等则鈳开启CUDA加速功能(上图红圈部分),可以加速视频转换速度

  可以看到GPU的CUDA编码加速技术具有质的优势,基本上领先传统的CPU编码一半有哆新架构的GTX480不愧为世上最快的单GPU显卡。

  Badaboom是读者都已经非常熟悉的一款软件了这款软件伴随着CUDA技术的正式发布,目前还确实受到了佷多NVIDIA 用户的青睐Badaboom主要应用在转换上,进行视频编码的操作我们平时经常用到例如我们要将从上下载或者从DVD上获得的视频文件进行重新嘚编码压缩,才能传到我们、IPOD、iPhone以及PSP中观看

  经过笔者的测试,很大一部分视频格式都可以被BadaBoom支持可以说所有编码格式的视频都能夠支持。只不过互联网上有部分视频采用的非标准容器封装的有可能导致BadaBoom不能正确识别。

  BadaBoom在目标视频的输出上可以直接支持数十种設备即使这数十种分辨率中都没有你想要的,你还可以完全自定义视频分辨率非常方便。不过需要提醒大家的是BadaBoom是一款共享软件,從网上下载之后只有30次的试用期过期后则必须购买正式版本。 

  而由于要进行和其他软件的对比测试显然这样的模板设计不能满足峩们要求。我们要具体指导它的码率、品质、音频品质等等以保证和其他软件压缩一致性。

  而从图片中看到左侧一栏可以直接选擇光驱中的光盘、浏览DVD中的对应文件,或者直接在硬盘上搜索需要压缩的文件操作也非常方便。

  威力导演怎么样这款软件就是专门針对这样的人群而设计的一款简便易上手的视频剪辑软件软件的界面非常具有前卫感,提供的功能包括了视频剪辑、音频分离、音频剪輯、过场效果、视频特效、字幕效果等等等等可谓非常全面。即使是对于有一定专业要求的用户来说威力导演怎么样也能够满足他们嘚需要。

  不必多说这款软件自然也是一款基于CUDA架构而设计的软件了。我们可以在软件的设置界面当中打开“编辑”选项卡,在这個选项卡的底部就可以看到开启GPU加速的选项了:

  值得注意的是这款软件同样是一款仅支持NVIDIA CUDA架构的GPU加速软件,而软件也提示用户尽量選择性能稍高的显卡进行计算不过通过我们的实验,即使目前NVIDIA 的入门级产品也基本上等同于现在顶级的CPU性能了

  vReveal这款软件的界面非瑺简单,对于大多数初学者用户来说上手自然也就非常方便了用户只要将需要优化的视频拖拽或者添加(实际上,首次***完毕vReveal软件后系统会自动搜索视频文件)到软件当中,就可以轻松对这些视频进行编辑了

  这款软件虽然能够支持CUDA架构的GPU计算,不过同样也是一款支歭CPU计算的软件因此我们在使用前一定要确认在软件当中打开了GPU加速的支持。软件***完毕后默认是开启GPU加速的我们可以参考下图的设置确认是否开启了GPU加速功能:

  从软件设置上很容易看出,这款软件目前仅提供了对NVIDIA 统一架构显卡的支持而对于ATI 产品来说,目前尚未提供支持我们在确认好开启GPU加速之后,接下来就可以尝试为手机或者小型数码相机拍摄的视频短片进行优化了

  左侧画面更为昏暗,主题不突出而通过处理的画面锐度变得更高,可以看清很多细节元素另外在功能选项中的“防抖”技术非常好玩,它是利用截取视頻中的恒定部分让画面更为稳定实际播放的效果更为明显。

  Folding@home是斯坦福大学的一个分布式计算计划可以利用分布于全球的计算机模拟複杂的蛋白质折叠效应是一款典型的科学计算程序。目前已经推出了支持CUDA环境的版本该项目的客户端程序可以使用客户机的CPU或NVIDIA CUDA enable GPU对同一鉯项目进行求解,为了让大家最清楚的了解CUDA的GeForce系列GPU在科学计算方面与CPU和其他计算解决方案在性能上的区别

  从测试的过程可以看出,GTX480嘚的性能非常强大领先GTX285一倍有多。而且这组数据也给我们了解到NVIDIA GPU在Folding @home计算中的强大之处

注:室温为16℃-24℃

  GTX480温度测试结果图:

  GTX470温度測试结果图:

  温度方面,在封闭机箱的情况下GTX480和GTX470不约而同地都是88度左右可以证明核心发热量有点大。不过在满载下温度情况得到恏转,同样是在96度处风扇开启了全速显卡温度得到缓解。

  在功耗的对比方面我们选择了Seasonic的Powerangel功率器进行平台的功耗对比(不包含光驱、显示器及其他周边配件和外设)即内设备功耗。测试主要划分为闲置与满载两个项目其中闲置主要是针对进入系统后闲置的状态下,而滿载则针对的是FURMARK进行渲染平均功耗读数测试进行测试在都关闭板载的节能功能的环境下进行。

  功耗方面由于发热量有点大,而且風扇转速闲值比较高所以满载方面的功耗会比较高。不过另一方面在待机的情况下,功耗控制还是比较不错了原因就在于,比较低端的2D频率

总结:DX11首战终落幕 新时代将越来越精彩

  经历半年的失利后,NVIDIA终于首次登台DX11并毫无疑问地完全击败对手,消灭了所有GTX480/470延迟半年仍然优势不明显的谣言

  预计GTX480和GTX470价格分别为3999元和2999元,比HD5870和HD5850目前3299元2299元的价格要高出一段距离加上HD5800系列已经上市半年时间,不少简囮型非公版早已准备就绪估计在GTX480/470货源稳定之际,ATI肯定会采用降价策略应对时间是ATI现阶段强而有力的武器。

  不得不正视的一个问题就是ATI中型核心策略里面的双核单卡战略,HD5970早早已在市场中等待GTX480的挑战而受制于功耗方面的难题,GF100要推出双核版本相信仍然要等一段时間

  另外,GF100架构的延伸产品线在时间方面也是个大问题尽管GTX480/470到来肯定风光无限,但除此以外NVIDIA在DX11领域仍然没有任何产品基于GF100架构的Φ低端产品目前仍然没有任何消息,反观ATI的全线产品都已经在布局完成这实在是让人担忧的局面。

  不过不管怎样我们在GF100系列身上恏象又看到了G80的影子,NVIDIA总是在每次DirectX更新之际冒一个创新的险下一盘很大的棋。正如DirectX9时代的FX5800DirectX10时代的Geforce8800系列,他们相比旧一代显卡都有着翻忝覆地的变化NVIDIA承担着新工艺成品率、成本控制、功耗控制和时间把握等风险,把几乎所有想实现的事情都赋予在Fermi架构身上这是一次把創新压了大注码的赌博,大家都应该为NVIDIA的创新精神而致敬而反观ATI,他们把注码更多地放在掌握生产工艺和架构深挖上面RV800的SIMD架构能追溯箌R580时代,预计ATI下一代架构仍然围绕生产设计水平为主要基石的中型核心策略两者截然不同的晶片设计风格将在DX11时代继续上演一幕幕的精彩对决。

文章仍未终!一句话评价GF100大奖免费拿!

  如此漫长的评测报告基本上告一段落,相信各位读者对NVIDIA这款全新的DX11显卡已经有了一定程度的认识为感谢读者对本文的阅读,我们IT168显卡频道在最后举行一个小有奖活动以答谢各位:

活动内容:各位读者可以在本文评论系統中,用一句话评价NVIDIA这款GF100显卡题材不限,鼓励有创意、有气势、恶搞、有内涵的评价请在评价的同时留下QQ号码以便我们联系得奖者。

活动时间:即日起至4月4日零时

活动奖品:本活动将由IT168显卡频道编辑选出三位最佳评价奖每位将得到豪华2.1声道音箱一套。另外还有三名优秀评价奖每位也将得到笔记本用音箱一台。

活动截止后我们将在文章本页公布得奖者同时也有专人通过QQ联系得奖者。

0
0
0
0
0
0

作图渲染一直都是A卡的天下吧N鉲也看着眼红了??

参考资料

 

随机推荐