前言
对于电脑玩家来说,9月20日英伟达的40系显卡会绝对是今年最大的焦点,昭华也是全程观看了本次发布会,最大的感想就是老黄已经把重心放在AI学习、图形处理以及元宇宙等方面,发布会70%的内容都和玩家无关。不过毕竟是NVIDIA,技术依然牛掰,RTX40系列显卡有着更先进的工艺制程和各种黑科技,性能方面提升巨大。
这篇文章昭华想和大家谈谈个人对这次新技术的理解,以及对七彩虹iGameGeForceRTXGBUltraWOC测试过程。文章架构如下,想直接看评测的朋友可以直接下拉。
1、对RTX40系显卡新工艺新特性的个人理解
2、COLORFUL七彩虹iGameGeForceRTXUltraWGDDR6X测评
3、测试平台硬件展示
新架构、新工艺带来更高性能
▼GeForceRTX40系列显卡这次采用了全新的NVIDIAAdaLovelace架构,以早期计算先驱AdaLovelace的名字命名。工艺采用定制TSMC4NNVIDIA工艺,核心面积从上一代的.4mm2缩小到.5mm2,晶体管数量从上一代的亿个提升至亿个。最恐怖的是核心面积一直在缩小的同时晶体管数目保持夸张的增长速度,同时功耗也持平甚至更低于上代。
▼40系的Ada架构相比上代的安培架构布局变化不大,上图左侧为上代安培架构右侧为全新Ada架构,仍然是每组GPC包含6组TPC(每组TPC包含2组SM)、一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元)。
▼SM单元依然和上代一样,四个主要计算模块,一个RT光追核心,以及KB一级数据缓存/共享内存等。最大的改变就是将RTCore光追核心从之前的第二代升级到第三代,TensorCore张量核心也从第三代升级到第四代。带来2倍的光线与三角形求交性能。
▼核心参数方面,RTX全面超过了上代旗舰Ti,不过次旗舰实际上比不上ti,除了频率方面胜出,其他参数都更弱了。
那么,为什么能够力压ti呢?这就必须提提老黄给我们带来的各种黑科技了。
全景(第三代)光线追踪
▼发布会上老黄用赛博朋克做了展示,细心的朋友应该会发现,这个版本的赛博使用的加强版,也就是所谓的超级光追模式。此模式下游戏帧数大幅提高,而如何实现就要从前面提到的第三代RTCore核心说起,
首先新核心相比上代提升了3倍算力,其次加入了两个全新硬件单元,负责提升Alpha-Test几何性能的OpacityMicro-Map(OMM)引擎、负责提升图形丰富度但又不会占用太多性能的DisplacedMicro-Mesh(DMME)引擎,以及负责执行效率的ShaderExecutionReordering(着色器执行重排序)
▼早期对树叶等常见物体进行光线追踪计算,需要调用大量色器才能确定光线和物体的相交情况,光线的数量、物体角度不同导致光线调用频率也不同,有快有慢,这就导致一些线程被闲置造成的效率低下。
OMM引擎简化了这一工作,直接将树叶分为不透明、透明、未知。
如果光线击中了不透明的网格,那说明光线和物体相交,返回结果
如果光线击中了透明网格,那说明光线和物体不相交,光线穿过物体继续前进,寻找下一个相交的物体。
如果光线击中未知网格,那么调用着色器来计算反射情况,再返回结果。
这样就能大幅降低着色器的调用,进而提高处理效率。
▼则是简化模型渲染的技术。早期的光追计算需要对物体进行大量的三角形光线追踪交叉测试,DMME只需要一个基础三角形,搭配不同的位移图自动生成复杂模型,同时完成三角形交叉计算,最后将结果返回系统,从而极大减轻系统负荷。
▼演示的时候老黄也是用三个案列来进行演示,物体越复杂越能展示DMME引擎的优越性,比如在螃蟹模型上,DMME能带来15倍速度提升,而占用的显存体积只有之前的1/20。而且,该引擎并非只适用于游戏领域,创作领域的Adobe、Simplygon也明确表示支持该技术。
▼众所周知光线具有极大的不确定性,各种角度的反射、散射、投射以及与其他物体相交需要大量的运算,期间会调用大量的着色器和不同的显存,而不同的进程会导致效率低下。着色器执行重排序(SER)技术就是通过实时调度、动态调整不同的着色器来完成执行顺序,从而更好利用系统资源实现更佳的光追效果。
▼按照老黄的说法,SER能提高3倍工作效率,游戏性能最高能提升25%,像演示会上的达瑞斯尔赛车模拟、传送门、赛博甚至能达到四倍光追性能的提升。
DLSS3更流畅的画面,更快速的响应
▼不知不觉,DLSS(深度学习超级采样)已经发展到第三代,这个技术是发布会的重点内容。简单来说,这个技术就是通过AI计算生成图像,以及利用算法将低分辨率画面转换为高分辨率画面。因为需要渲染的像素更少,所以可以明显降低GPU占用。其主要技术手段包括帧生成技术、DLSS2超分辨率技术以及NVIDIAReflex技术,其中的帧生成技术只有这次40系显卡搭载。
▼帧生成技术也可以视为插帧,和电视端的MEMC有点类似,都是通过分析两帧连续图像生成一帧新图像,插入到原图像序列,帧数的增加自然会让画面表现的更为流畅。
不过电视端的插帧技术比较粗糙,特别是图像中的阴影部分因为涉及到计算,搭载的处理器根本无法负荷这么高速的运算,呈现的效果自然和精准谈不上。
▼而DLSS3会通过计算帧与帧中物体和元素的运动矢量数据,在新光流加速器中进行计算,生成一帧超级分辨率帧,可以准确还原原本图像。同时这个计算过程是在GPU上进行,不需要CPU帮忙,可以释放大量CPU性能用以计算其他方面,在物理计算密集型或大型场景类游戏更有优势。
▼至于DLSS2和NVIDIAReflex。前者也就是深度学习超级采样,在RTX20/30系已经搭载;后者主要起到降低延迟提高响应速度。目前已经有35款软件/游戏开始支持DLSS3,其中不乏赛博、瘟疫传说安魂曲、巫师3、黑神话悟空等大作。
创作者的福音,生产力工具
▼40系显卡价格昂贵的原因就是,它不仅仅是面对游戏玩家,同时还对生产力有着极大的加成,看看生产力GPU排行就知道了。说起来游戏玩家也真可怜,前两年要和矿主抢卡,现在要和生产力用户以及跑深度运算的用户抢卡。
▼NVIDIA系还专门为游戏开发者提供了RTXRemix平台,在这里可以利用AI技术提高老游戏的纹理精度、给老游戏添加光线追踪,以及带来全新的渲染流程提高运行效率。简单说,这个平台可以让老游戏焕发新活力,也可以利用新技术给老游戏制作全新的MOD延长游戏寿命。可以预见后期的重置版游戏数量将大幅提升,品质也将更为出色。下图就是英伟达利用RTXRemix重制的经典游戏“传送门”。
▼40系AdaLovelace架构使用了升级版的NVIDIA编码器(NVENC),开始支持AV1编码。相比常见的H.在效率上提升了40%,同样的带宽下可以实现更清晰的画面质量,在直播推流、视频剪辑等方面具有强大的优势。
最关键是这种编码技术完全免费,对于厂商来说自然成本更低。目前很多软件都开始正式支持AV1编码,比如达芬奇、Premiere以及国内用户比较习惯的“剪映”等。
▼RTX40系搭载双NVENC编码器,协同运行以及输出,可以提高一倍的工作效率。对于主播用户来说,RTX40系列甚至还能录制8K60的HEVC。
COLORFUL七彩虹iGameGeForceRTXUltra实测
▼3Dmark作为专为硬件而设计的基准测试软件,旗下的TimeSpy和FireStrike是专门为显卡打造,前者对应DirectX12基准测试、后者对应DirectX11基准测试。而Extreme和Ultra则是两者的4K版本
▼测试结果如下:
TimeSpyExtreme:显卡分数:、GPU分数:
FireStrikeUltra:显卡分数:、物理分数:、综合得分:(这里我很奇怪,我明明选的Ultra版本,为什么没显示出来)
▼这是3DMark专门用于测试显卡DLSS性能的基准测试,通过开关DLSS功能用数字来进行打分比较,本次测试分别开启DLSS2.0和DLSS3.0,看看两者之间差距变化。
4K分辨率下,iGameGeForceRTXUltra不开DLSS只有不到40FPS,要说玩肯定能玩,不过流畅性就不要指望了。
开启DLSS2.0,帧率接近FPS,基本上是2倍多性能提升。
开启DLSS3.0,帧率更是直接暴涨至FPS。相比不开DLSS有3倍多性能提升,超过DLSS2.0模式1/3性能提升。
赛博朋克游戏性能测试
1??BenchMark性能测试
赛博初上市时被玩家强烈吐槽,好在后续补丁给力,基本上挽回了当初的口碑。作为内置BenchMark的3A大作,经常客串硬件测试的基准。本次测试全程在4K分辨率下进行。
测试结果:
▼未开启DLSS时,游戏平均帧率29FPS(最低21/最高36),开启DLSS3.0画质优先模式,游戏平均帧率暴涨一倍,达到57FPS(最低44/最高72),选项不变调整为超级性能模式游戏平均帧率更是达到FPS(最低64/最高),从勉强能玩直接干到了丝般流畅。
2??画质对比
DLSS对游戏流畅度提高很明显,那么画面的细节表现如何呢?
▼下图就是赛博朋克实机画面,所有设置相同,上面为开启DLSS,下面为关闭。水面的倒影效果那是一目了然,重点看看远处红圈里的黄色灯箱,下面的图完全没有细节,上面开启DLSS后能看到灯箱下方黑色内部细节。
▼复杂场景,开启DLSS同样也展示更多细节。比如左上角灯笼底部的黄色飘带,二楼玻璃的反光、远处空调下方的阴影细节等等。当然,最关键的还是在展现如此多画面细节的情况下,帧率不降反增,优势实在太大了。
地铁离去加强版游戏性能测试
▼首款支持光追的游戏,也是地铁系列最好玩的一部。场景从上代的地下转移到地面,景色更为壮丽,将末世的氛围渲染的淋漓尽致。游
戏搭载独立的BenchMark测试工具,加上丰富的选项,成为光追测试必备游戏。
▼测试使用4K分辨率,所有选项不变仅开关DLSS功能
未开启DLSS:平均帧率20.45FPS,最大帧率22.25FPS,最小帧率17.27FPS。
开启DLSS画质最高:平均帧率80.26FPS,最大帧率.89FPS,最小帧率50.72FPS
开启DLSS性能最高:平均帧率.14FPS,最大帧率.68FPS,最小帧率66.90FPS。
开启DLSS性能提升明显,最高画质下都能提高接近4倍,采用性能模式更是翻了5倍性能,高刷显示器必须走起。
古墓丽影暗影游戏性能测试
古墓系列是我的最爱,每代我都翻盘不止三次,感谢EPIC让我将新版三部曲都收入囊中。这个系列也提供了专门用于光线追踪的BenchMark测试工具,另外,GPU受限百分比也方便判断处理器性能是否能满足显卡需求。
▼测试使用4K分辨率,所有选项调到最高
未开启DLSS:平均帧率85FPS,GPU受限%
开启DLSS画质最高:平均帧率FPS,GPU受限98%
开启DLSS性能最高:平均帧率FPS,GPU受限33%
GPU受限指的就是利用率,%就是最好的情况。从结果来看,开启DLSS性能最高情况下CPU完全满足不了的性能,关闭DLSS则帧率下降不少。反而是画质模式最能发挥该有的实力。
瘟疫传说:安魂曲游戏性能测试
瘟疫传说是款以剧情向为主的动作游戏,背景设定在至年黑死病肆虐的欧洲,安魂曲的剧情紧承前作,阿米西亚和雨果的冒险故事。这个游戏其实动作要素不多,但剧情感人,特别是画面做的极其优秀,堪称行走的欧洲风景图。
安魂曲也是最早一批开始支持DLSS3.0的游戏,不过游戏没有内置BenchMark测试工具,只能从帧数方面加以说明。
▼测试使用4K分辨率,所有选项调到最高,帧率提升简直残暴。
同样场景,不开DLSS游戏帧率在50FPS~60FPS之间徘徊,经常跌落至50FPS以下。开启DLSS全程稳定FPS,画面流畅至极。
生产力测试
1??视频转码剪映
▼前面提到RTX40系显卡采用的AdaLovelace架构使用了升级版的NVIDIA编码器(NVENC),开始支持AV1编码,拥有者体积小画质高还免费的特点,对于视频网站来说体积小意味着对带宽要求小,网站负荷也更低,像国内有名的B站就已经开始支持这种编码
▼而对于创作者来说,显卡能参与到转码渲染这一步骤来,无疑会极大的加快创作进度,像很多朋友喜欢使用的剪映也开始支持AV1转码,下图就是利用剪映输出视频,可以看到GPU是火力全开的状态。
2??BlenderBenchmark测试
▼Blender是一款免费开源的三维图形图像软件,主要被用来进行三维可视化模型渲染,同时也可以创作广播和电影级品质的视频,而BlenderBenchmark就是旗下专门测试硬件基准的工具,其包含monster、junkshop、classroom三个测试项目,测试结果如下
3??V-Ray渲染性能测试
▼V-RayBenchmark是一款免费的独立渲染速度测试软件,主要用于测试计算机的渲染速度。包括测试CPU的V-Ray、测试CPU与GPU协同工作的V-RayGPUCUDA,以及测试显卡RTX渲染性能的V-RayGPURTX
测试结果如下:iGameGeForceRTXUltra16GBV-Ray得分为57分,V-RayGPUCUDA得分为分,V-RayGPURTX得分为分。
4??OctaneBench渲染性能测试
▼OctaneRender是Otoy发布的OC渲染器,也是首个能够完全利用GPU进行加速的光线追踪渲染器,支持全互动光/环境/几何与运动模糊,材料编辑拖放功能。而OctaneBench主要用来衡量OctaneRender渲性能。不过这个工具测试的是基于实时光线追踪的渲染能力,因此只有支持光追的显卡才能够运行。
测试得分.03
测试平台硬件展示
▼测试相关硬件如下
测试平台沿用之前主机,大部分硬件之前都做过展示,有兴趣的可以参看下文,
这里重点谈谈几款升级的硬件。
1??显卡|COLORFUL七彩虹iGameGeForceRTXUltraWOC
七彩虹(Colorful)iGameGeForceRTXUltraWOCDLS京东月销量好评率%无理由退换京东配送旗舰店¥购买▼显卡外观大量采用波普风格要素(其实我觉得就是卡通风格),算是比较少见的浅色系显卡。正面是3把10cm风扇,九翼环形扇叶,聚风效果更加出色。
▼显卡顶部右边为RGB背光灯,上面为16pin(12+4)供电接口,需要使用附带的转接线连接电源。iGameGeForceRTXUltraW使用了5根直径6mm+2根直径8mm的热管,配合散热鳍片加速热传递,实现高效的散热。
▼不锈钢IO挡板,接口包括DP1.4aX3、HDMI2.1X1,以及一键超频按钮。显卡的涂层有点意思,换个角度色彩都不一样了。
▼显卡背面使用了异形开孔设计,大量粉红元素运用,满满的二次元风,至于能不能接受这种风格那就见仁见智了。
▼iGameRTXUltra使用了16GBGDDR6X大显卡,带宽达到.8Gb/s。CUDA核心为,Boost频率为MHz,超频后最高频率为MHz,利用GPUZ读取显卡信息如下
2??内存|十铨梦境DDRG×RGB
十铨科技梦境DDR4电脑内存条台式机超频游戏电竞套装RGB内存条梦境DDR16G京东好评率96%无理由退换旗舰店¥购买▼梦境是十铨的高端灯条系列,主打性能与灯效,可选频率为MHz/MHz,支持XMP2.0一键超频以及主流主板的灯效同步。终身保固。这套条子我之前入了16X2的套装,然后趁着双12又入了两根,满足了我插满内存槽的欲望。
▼梦境的造型拿过德国红点设计大奖,外观设计上自然有两把刷子,内存表面为白色磨砂涂层,中间的分隔条做了电镀抛光处理,镜面反射感很强。顶部采用外斜面过渡,让顶部RGB展现幅度更广。内存颜值极高,无灯状态下也能感受到浓浓的设计美感。
▼梦境使用了10层电路板的高规格,单面颗粒带来更紧凑的整体厚度,也让内部空间更为充裕。内存发光区内置了15颗可以独立寻址的灯珠,每颗灯珠都可以独立设置,加上采用的ARPG同步技术使得灯效的衔接延迟几乎无感。点亮后的内存条通体散发出雪白柔和的光泽,光线轻柔的填满内存,真的有种置身梦境的感觉。
▼开启灯效同步RGB效果简直炸裂。梦境内存色彩变换时的过渡效果非常细腻,灯效柔和亮丽,给机箱内部增色不少。
▼利用ThaiphoonBurner读取SPD信息,可以看到十铨梦境颗粒型号来自三星K4A8GWB-BCPB,正宗三星B-die颗粒。开启XMP频率为14-15-15-35,AIDA64测试下来读取速度为MB/s,写入速度为MB/s,复制速度为MB/s,时延82.7ns,整体表现相当不错.
3??主板|华硕(ASUS)TUFGAMINGBM-PLUS重炮手
¥20华硕(ASUS)TUFGAMINGBM-PLUSWIFID4重炮手主板支持CPU京东月销量1万好评率97%无理由退换京东配送旗舰店¥购买BM-PLUS重炮手虽然定位中端,但10+1Dr.MOS供电模组设计别说满足无法超频的,就算00也不成问题。DDR4X4内存插槽,内嵌强化型金属隔板,最高支持MHz;PCIE插槽X2,上方一根带有SafeSlot高强度金属加固,完整支持PCI-E5.0X16;两组M.2插槽都可以支持PCI-E4.0X4模式,不过下方的M.2不支持SATA协议,主板自带的M.2散热片也可以在两个插槽
上自由切换。板载声卡RealtekALC,支持7.1声道输出和AI双向降噪。
4??散热:ROGSTRIX吹雪ARGB水冷散热器
¥5华硕(ASUS)ROGSTRIX吹雪ARGB一体式CPU水冷散热器6年换新/神光同步京东月销量好评率95%无理由退换京东配送旗舰店¥购买▼ROGSTRIX吹雪是我用过最强悍的水冷散热。它采用第七代Asetek水泵,三个12cm定制冷排风扇,冷排长度为mm,三个风扇运行时的转速可达-2RPM,最大风量80.95CFM/.5m3h,最大风压5.0mmH2O,PWM/DC控制模式能更加准确的控制转速。
▼水路为橡胶材质,表面覆盖了一层编织保护套。冷排则是密集波状鳍片设计,尺寸为mmxmm。水冷头为圆腔造型,表面有一层NCVM涂层覆盖,边缘处有四个三角块进行点缀,运行时可以提供不同色的点缀。有一说一,华硕的东西做工是真好,一眼就是满满的精致感。
5??电源丨ROGSTRIX雪鹰W
¥5华硕(ASUS)ROGSTRIX雪鹰W白色金牌全模电源支持30显卡/双路供电/10年质保/金京东月销量好评率98%无理由退换京东配送旗舰店¥购买▼华硕这款雪鹰W个人强烈推荐,有信仰有颜值做工好走线方便,价格也不错。全日系电容,额定功率为W,性能强悍。主动式PFC+全桥LLC谐振+同步整流+DCtoDC结构,Axial--Tech轴流风扇+双滚珠轴承风扇配合ROG散热模组可以实现40%负载下零噪音输出,就算负载超过90%噪音值也不会超过25dB,性能与安静兼得。
▼标配的网纹软线,柔软耐磨还特别方便走线。最关键的是原装线材在承受电流经过时稳定性远超第三方定制线材,
▼很多人怀疑W电源是否够用,实测最高功耗不到W,雪鹰W本身经过80plus金牌认证,不会发生虚标功率的现象。
6??机箱丨华硕AP
华硕(ASUS)AP冰立方机箱白色免工具拆卸/5万+散热孔/10GbpsType-C/京东月销量好评率96%无理由退换京东配送旗舰店¥购买▼AP定位虽然是M-ATX,但超级能装,能够支持全长显卡、水冷以及ATX电源。机箱采用全网孔设计,顶部、左侧、右侧和前侧都是密密麻麻的开孔,散热给力。侧板顶板前面板都可以自由拆卸,卡扣加定位钉的固定方式无需任何工具就能轻松卸下。
▼机箱做工是真的无愧信仰,漆面均匀,倒角圆润,细节也是逼死强迫症。我有两个很大的感触,一是机箱前面板接缝处孔位堪称完美对应,二是机箱的脚垫,透明磨砂的PC材质使得机箱有种悬浮的质感。讲真这个价位,这个细节处理,这个做工工艺完全称得上超值。
▼AP内部空间很宽松,后方的走线槽深度也给的够深,装机可以说是毫无压力。最明显的的一点是装机完成后可以在不拆卸冷排的情况下取下主板,这个空间可以说是这个尺寸里面独一份了。七彩虹iGameGeForceRTX长度为mm,而AP在安装ATX电源时对显卡的限长为mm。实测真的是刚好能放下,多1mm都不行那种精确度。
7??显示器丨优派VX-4K-PRO
¥优派27英寸4KMiniLEDFastIPSHzType-C96WTUV爱眼HDR1京东月销量好评率95%无理由退换京东配送官方店¥5购买▼这台显示器也是前几天入手的,优派本身就属于显示器一流品牌,VX-4K-PRO更属于旗舰型号。画质方面有MiniLED量子点技术加持、有DisplayHDR0认证、有色彩专家调教带来的出色画质,以及近乎完美的控黑控曝能力。而对于游戏玩家来说,FastIPS快速液晶面板提供了Hz电光刷新,1ms响应时间、以及同时兼容FreeSync、N卡的G-sync功能,游戏时根本不用担心拖影撕裂等问题。
▼此外,VX-4K-PRO还提供了充足的接口以及丰富的功能,甚至连RGB灯效都没落下。可能最大的不足的就是接近0的价格了,不过细想想,具有相同素质的显示器,就算是三线品牌也在+,而且显示器通常服役时间较长,一步到位也是不错的选择。
怎么看近W的售价
首先要搞清楚,/并不是只有游戏玩家喜欢,可以看到40系的新特性也以生产力为主,而且,老黄的AI计算、cuda生态方面的能力目前来看也是无敌的存在。所以,40系显卡的价格绝对不能从游戏玩家的角度来看。说白了,这个等级的卡就不是给普通玩家准备的。
更尴尬的是,苏妈的系定价更是神奇,直接干到了+。话说老黄的40系有生产力加成,你的XT/XTX除了游戏还有啥,真就为了战未来?简直活生生衬托出老黄的良心定价。
总结下吧,iGameRTXUltra性能绝对到位,游戏方面主流3A游戏在DLSS的加持下跑个4KHz都属于起步标准,生产力方面得益于AdaLovelace架构的性能提升,拥有双NVENC编码器和支持AV1编码,对于视频剪辑、3D建模、直播推流有性能上的加成。目前这款显卡的最低价格是,已经是破发了。有兴趣的朋友可以