数控火焰切割编程视频(ADA架构第二发炮弹，NVIDIA GeForce RTX 4080 FE公版首发评测)

Posted 2023-05-27

篇首语：如果，不能运气爆棚。那就，努力实力过人。本文由小常识网(cha138.com)小编为大家整理，主要介绍了数控火焰切割编程视频(ADA架构第二发炮弹，NVIDIA GeForce RTX 4080 FE公版首发评测)相关的知识，希望对你有一定的参考价值。

数控火焰切割编程视频(ADA架构第二发炮弹，NVIDIA GeForce RTX 4080 FE公版首发评测)

1序言

2022年11月16日晚点22点，NVIDIAGeForceRTX4090显卡正式解禁。NVIDIA对新品发布的节奏把控的确是紧得很，距旗舰产品GeForceRTX4090发布后一个月，正式解禁包括GeForceRTX408016GBFounderEdition和AIC版的评测与开箱部分，明天就能正式开卖此款显卡。而此两款旗舰级显卡的陆续到似乎也是向对手的一种示威，毕竟部品新显卡也是纸面发布不久，下个月正式解禁的样子。

说回正题，此次我们收到了多家的GeForceRTX408016GB非公版产品，同时也收到来NVIDIA寄回过来的GeForceRTX408016GBFounderEdition（简称“RTX408016GBFE”），而此次测试我们也将会以RTX408016GBFE性能为基准，为大家测试一下此款RTX4080FE性能到底如何？

规格对比

与往常一样，我们先来看看RTX408016GBFE的规格，这个规格表其实早在RTX4090FE发布之时就已经做好了，不过RTX408012G这个产品就真正式更名了，那之后是RTX4070Ti还是RTX4070这个就真的之后再另说了。

AD103FullChipDiagram

RTX408016GBFE，核心代号AD103-300，是继AD102后的第二个AdaLovelace架构核心，采用了中型核心的设计，从规格上来看并没有AD102那样的庞大。一个完整规格的AD103核心包括了7个GPC(图形处理集群)、40个TPC(纹理处理集群)、80个SM(流式多处理器)和⼀个带有8个32Bit显存控制器的256Bit显存位宽。

GeForceRTX408016GB

而从上面的两个GPU架构图，你应该懂了些什么，对的，RTX408016GB与RTX4090一样并非采用了完整规格的核心，其同样内置了7个GPC单元，但是TPC数量进行了一定的削减，保留38个TPC，这样SM单元为76个，9728个CUDA核心，显存位置同样保持在256Bit上。只不过NVDEC（视频解码器；【NVENC，视频编码器】）数量也从完整的4个减成了1个，那是否意味着视频解码方面有一定的减弱？之后我们再来测试一下。

再来对比一下30系列时代同定位的RTX3080Ti显卡，RTX408016GB其实并没有规格上的优势，甚至还有一些低了？错了，RTX408016GB是甚至AdaLovelace架构核心，而RTX3080Ti却是Ampere架构的显卡，两者从架构上就不对比，而RTX4090首发时也表明AdaLovelace架构有着更先进的设计、更高的性能表现。

同时RTX408016GB采用了选进的TSMC4n工艺，内部的晶体管数量已经达到了459亿，比RTX3080Ti高多了，但是其设计功耗也仅是320W,所以每瓦性能比上来看RTX408016GB相信会比RTX3080Ti好不少，那实测是否真是如此呢，我们就去看一下。

2RTX 4080 FE显卡

GeForceRTX4090FounderEdition外观

从外观上来看，RTX408016GBFE采用了RTX4090FE同款的外观设计，其实不单是外包装，设计元素，甚至是散热器做弄等，与散热直接就是RTX4090FE基本就是一个模样，因此很容易让人误认为此款为RTX4090FE显卡。

但实际上看背面与小标签就知道，这其实是RTX408016GBFE显卡，毕竟背部有着那么明显的RTX4080产品型号标识。

两块显卡放到一起就会发现什么叫真正的1:1，初步来看这套散热器方案与RTX4090FE是一样的，设计之初其实是为了600WTDP散热而来，但是现在用到RTX4090上很是冷快，那么直接套到RTX408016GBFE显卡，也就意味着此款显卡的散热会有相当不错的效果。

前面的RTX4080小标还是比较好看的，

从30系列FE公版显卡开始，FE公版就是默认采用前后两把的轴流风扇设计，两把12cm风扇均PWM控制，低转速时噪音和风量控制都相当好。

输出接口方面，当然是同一套的3*DP1.4a+1*HDMI2.1接口，单接口最高支持4K144Hz，多屏最多支持3+1屏输出。

GeForceRTX4090FounderEdition，PCB

RTX4090FrontPCB

由于特殊原因，此次我们并没有对GeForceRTX408016GBFE显卡进行拆解，我们直接拿NVIDIA提供的PCB图来了解显卡的内部设计。

GeForceRTX408016GBFEPCB

首先我们可以看到AD103核心采用的是中型核心设计，所以核心尺寸上得比AD102核心得小巧多了；同样由于显存位宽的限制所以GeForceRTX408016GBFE显存仅配合了PCB正面8颗GDDR6X显存颗粒，组成16GB/256Bit规格，显存带宽达到了716.8GB/s。

而供电设计方向，由于GeForceRTX408016GBTDP设计功耗为320W（FEMaximunTDP为355W），所以在供电方面进行了一定的削减（PCB供电有部分空焊位置），采用了12相核心+4相显存的供电设计，而空焊的位置其实是为了满足更高核心规格、更高频率的AD103而设计。你看同时发布的几家AIC非公RTX4080显卡的供电就知道了，基本就是照着RTX4090供电规格去弄的，只等NVIDIA释放更高功耗设计的BIOS了。

散热方面还是NVIDIA标志性的双轴流风扇散热模块，整个散热模块均为大面积的黑化散热鳍片与多热管的设计。

3测试平台介绍

测试平台介绍：

此次测试平台我们不再使用RTX4090首发时的那套，而是更换成了英特尔最新的13代酷睿i9-13900K处理器，此款处理器因为有着更高的频率与更多的核心数量，所以在游戏与内容创作方面都处于目前桌面级市场上顶级的水平。

而配合上旗舰级的处理器，我们拿来的四条KingstonFURYRenegadeDDR5RGB内存，并手动降频运行在DDR5-6000C32，Gear2模式下，这样可以确保平台有着更佳性能的同时也有着更高的稳定性。

显卡方面，我们拿来了上代同定位的RTX3080TiFE、RTX4090FE两款公版显卡与这次首发对象RTX4080FE显卡进行对比测试，包括理论性能表现，内容创作能力，游戏性能，DLSS测试，功耗对比，以及超频测试。

显示器方面自然是评测室专用的电竞神器——爱攻&保时捷联名PD32M4K144电竞显示器，配合上RTX4080FE显卡相信会有着更佳的游戏体验。

同样的在测试前，我们得先确保一下系统配置是正确的，因为上次RTX4090首发时就知道，需要在系统和BIOS中进行一定的配置才能开启上DLSS2功能。同时NVIDIA的技术指导文档中已经说到，想要开启DLSS3功能，需要几个步骤：

将硬件加速的GPU调度设置为开启

以全屏模式运行游戏以获得最佳性能和最低延迟。

请确保在NVIDIA控制面板中将显示器设置为最大刷新率。

建议使用G-SYNCUltimate显示器进行最佳体验评估。

在主板的SBIOS中开启ResizableBAR。

4理论性能&内容创作测试

理论性能测试：

理论性能我们主要是以3DMARK测试为主，由FireStrike、TimeSpy、PortRoyal、SpeedWay等进行显卡性能测试，而其它的测试小项为辅。尤其是PortRoyal与新增的SpeedWay主要反馈的是显卡的光线追踪性能。

小结：可看到RTX40系列显卡的性能水平基本就是提升了一个台阶，单纯的拿3DMARK跑分来说，RTX408016GB理论性能都要比RTX3090Ti好，更不用说RTX3080Ti此款显卡了。

当然与旗舰级的RTX4090差跑还是有较为明显的理论性能差别，毕竟CUDA核心、RTCores、TensorCores，甚至是显存位宽这些都差距有点明显，这样的理论性能表现也是能接受的，就看真实的性能会是如何了。

AIDA64GPGPU测试

GPGPU理论性能测试方面其实很好的表明了这一代的RTX40系列显卡在算力上有着较为出色的性能表现。这次RTX4080的性能表现还是不错的，中型核心就已经优势于上代的大型核心，每W性能比提升不少。

创作者能力测试：

视频与平面内容创作方面这次我们测试得比较多，包括了PCMark10与PugetBench三个大项，其中PugetBench其实把PS|PR|LR|AE|达芬奇这五款较为常见的软件都测试了篇。ADOBE软件使用的是最新的ADOBE2023版本，而达芬奇是NVIDIA提供的AV1特殊版本。

PCMARK10测试中反馈的是整机的性能，所以大家可认真看看子测试项目上，提升较大的同样是游戏方面。

而PugetBench方面我们更新到了最新版本的脚本，能够支持最新的ADOBE2023版本软件，按照性能比例来说，RTX4080FE比RTX3080Ti提升约为7%，同样比RTX4090的弱一些。性能差别较大的是达芬奇的测试上，使用的版本为18.0.2，性能提升达到了125%。但是ADOBE全家桶的性能表现其实并不太理想，总感觉优化不太到位，反而对旧显卡RTX3080Ti的优化就相当可以。之后ADOBE推出更新的版本，或者是NVIDIA推出正式版本驱动后我们再来测试一翻。

专业设计领域

专业设计领域领域测试中，RTX40系列显卡真是专门为了专业内容领域而来的，整个性能表现提升还真的很强。尤其是旗舰级别的RTX4090能达到190%性能提升，而RTX4080也有143%性能提升，比上代RTX30系列旗舰都强得多了。

AV1能力测试：

虽然说RTX408016GBFE显卡中少了三个NVDEC单元，但是NVENC单元仍是保留两个的，对于AV1这个新格式来说还是完全没问题。我们同样利用上次RTX4090首发时的达芬奇Prores422HQtoAv1EncodeTest项目文件进行测试，同样tearsofsteel_8k_proRes422HQ视频源，我们测试【H.2658K30】项目下的RTX4080FE导出速度比RTX3080TiFE快1.6倍。

另外可看到AV1格式的确是比H.265格式省空间多了，AV18K30视频也就800多MB，AV14K30也就400多MB；而H.265两个分辨率的格式都得去到1.16GB，这一对比容量差别是真大了。

我们再来看看H.265格式与AV1格式画质上的差别，同样是拿8K30的视频抽取三个不同的时间节点，且100%放大后对比，从肉眼来看，其实就是一样的。这样也意味着即使是AV1与H.265有着同样的画质表现，但是所占的空间容量更低。配合上RTX40系列显卡导出AV1格式有着时间、容量以及画质上的优势。

5游戏性能测试

游戏性能测试：

对于这个次旗舰级别的显卡来看，1080p与2K分辨率的游戏其实全都没有压力的，就看其RTX4080能提升多少游戏流畅度了。RTX4080FE应对市面上的3A游戏完全是没有压力的，基本能上120FPS以上来跑，部分游戏更是达到了200FPS+的水平，比上代RTX3080Ti快了25%以上。

而随着分辨率的逐步提升，RTX4080FE逐步拉开了与RTX3080Ti的差距，4K分辨率下达到了37%的流畅度提升。同样大部分的3A游戏都能保持在超高的流畅度，4K144的电竞梦这次不用再等RTX4090显卡来实现了，一块RTX4080显卡即可以满足。

而8K的情况下，只有RTX4090才能真正满足全部的3A游戏高画质的要求了，RTX408016GB其实我们降低一些画质即可以满足8K60基本的游戏度运行，同样的RTX4080比上代RTX3080Ti提升了约40%。

6DLSS3性能测试

DLSS3性能测试：

自RTX4090显卡发布之后越来越多的游戏都支持上了DLSS3这一新技术，而来到11月15日GeForceRTX4080发售时，将已有10款DLSS3游戏发布

1.《瘟疫传说：安魂曲》（APlagueTale:Requiem）

2.《光明记忆：无限》（BrightMemory:Infinite）

3.《毁灭全人类2：重新探测》（DestroyAllHumans!2-Reprobed）

4.《暗影火炬城》（F.I.S.T.:ForgedinShadowTorch）

5.F1®22

6.《逆水寒》（Justice）

7.《生死轮回》（Loopmancer）

8.《漫威蜘蛛侠：重制版》（Marvel’sSpider-ManRemastered）

9.《微软模拟飞行》（MicrosoftFlightSimulator）

10.《超级人类》（SUPERPEOPLE）

而这次DLSS3测试中，我们挑选了这里面的6款游戏，配合上UE5引擎的两个BENCHMARK与赛博朋克2077DLSS3内测游戏RTX408016GB的显存性能测试。

哦对了，在DLSS3的游戏测试之前我们仍是先来看看DLSS3的理论性能表现，这里我们直接使用的是最新版本的3DMARK理论性能测试软件，内部集成了一个最新的DLSS3测试程序。

但是由于目前只有两款显卡支持最新的DLSS3技术，所以下面的测试我们基本都是拿RTX4090FE显卡与RTX408016GBFE进行性能对比。从数据上来看，RTX4090FE果真对得起旗舰级的称号，在不开启DLSS功能下的基础性能就已经相当出色，当然RTX4080也不弱4K分辨率光线追踪的仍能跑到39FPS，在开启DLSS2游戏帧数更是明显直接直长号䭴101FPS，而在DLSS3技术加持下，已经达到了132FPS超级流畅的水平。同时可看到随着分辨率不断增加，DLSS3功能对游戏流畅度的提供就越来越明显，尤其是8K分辨率下，本只能玩2FPS，结果直接跑到了69FPS，这提升是真的相当显著。

UnrealEngine5EnemiesDEMO

看数据估计大家都会觉得沉闷，这里我们做了一些小视频给大家参考。Enemies是NVIDIA提供给媒体与各大KOL测试所用的DEMO，利用UnrealEngine5轻松制作了一个数字人类，第一次接触这个DEMO的时候还真的相当的惊讶，原来UnrealEngine5已经可以这么强劲。

另外值得我们注意的是这个DEMO是带上DLSS3，兼容DLSS2技术的，那我们通过开启DLSS3与关闭DLSS就可看到DEMO里FPS值的变化是不一样的，4K分辨率下RTX4080可达77AVG/661%FPS/55ms的水平，而关闭DLSS3后仅有22AVG/171%FPS/195ms，基本就是3.5倍的游戏流畅度提升。

《光明记忆：无限》（BrightMemory:Infinite）

《光明记忆：无限》（BrightMemory:Infinite）之前RTX4090首发的时候是利用beta版本的，而RTX4080首发时我们就此款《光明记忆：无限》游戏就已经支持DLSS3技术，并且我们还能在游戏中通过开启DLSS3的【插帧】来实现DLSS2与DLSS3。

同样的，其实在不开启DLSS的情况下，RTX408016GBFE显卡在4K分辨率下仍是可以流畅运行《光明记忆：无限》此款游戏；但是开启DLSS2功能后，游戏帧数就达到了137，1%帧数也达到了115FPS，这完全就是翻倍的游戏流畅度提升嘛；至于开启DLSS3之后，那么游戏帧数更是达到了160FPS，配上目前游戏的4K144显卡，例如我们测试中使用的AGONPD32M，玩此款游戏那是真爽了。

再分享一个笔者在游戏开头找杀了几个对手之后《光明记忆：无限》游戏里开启DLSS3游戏的效果，分辨率为4K，画质极高，DLSS模式为性能。

2K分辨率与4K分辨率DLSS性能测试

DLSS3的性能测试我们这里做了两个分辨率与十个项目，这里就不再单一的说了，笔者弄个汇总的表格给大家作参考之用吧。注意：DEMO里是没帧生成开关的，所以30系列显卡其实运行在DLSS2模式之下。

2K分辨率与4K分辨率两者的表格其实都表明，基于新一代AdaLovelace架构的RTX408016GBFE显卡在DLSS2功能的加持下就有着比上代RTX3080TiFE更高的游戏流畅度，而开启40系列显卡独有的DLSS3功能后，游戏流畅度进一步的提供，基本可以实在4K144，2K180以上的水平，40系列显卡真强果真不是吹的。

8K分辨率

当然其实我们也用RTX4080FE测试了8KDLSS3游戏的性能表现，同时我们也遇到了爆显存的情况，主要表现为显存占用达到了16GB，游戏帧数也较低。只能说老黄的刀法是真可以，刚好16GB这个就爆了，或者之后在游戏厂商的优化下，可以降低更少的显存占用。

值得注意的是RTX4080FE其实在DLSS3功能的加持下都能使用8K60这样的游戏帐，刚好配上目前的8K显示器，甚至是8K电视也是不错的。

而在RTX4080推出后不久，WRCGenerations,《极品飞车:不羁》(NeedforSpeedUnbound)和《战锤40K：暗潮》（Warhammer40,000:Darktide）等三款游戏也将会发布，圣诞节前玩家就可畅玩这些DLSS3游戏。

了解关于DLSS3更新：https://www.nvidia.com/en-us/geforce/news/more-november-2022-rtx-dlss-game-updates

7温度&功耗

温度与功耗测试：

烤机方面我们同样利用FURMARK软件进行重负载的烤机测试，经常20分钟的烤机，显卡最终核心温度稳定在63度，显存温度为60度，此时核心频率仍能运行在2475MHz高频下，GPU功耗达到了302W；从HWINFO64上来看，PCI-E供电仅提供了6.6W，主要的供电来源为+12V辅助供电上，达到了298W。同时此时的风扇转带最高仅是43%，噪音表现相当出色。

横向对比一下上代显卡与RTX4090显卡的功耗，从功耗来看，其实RTX4080功耗控制还是相当不错的，最高才是300W还比RTX3080Ti少多了，而且性能更强了。

测试的时候其实我们同时利用HWINFO64在后台进行功耗记录，结果如上图一样，RTX3080Ti基本跑的是350W，而RTX408016GBFE也就300W左右，部分应用软件上甚至更低的功耗表现。所以说RTX408016GB每瓦性能比是实打实的提升到了一个新高度。

8超频能力&总结

超频能力测试：

RTX408016GBFE显卡在TimeSpy测试中的默认得分为28130，其40秒的核心频率为2775MHz。

利用MSIAfterburner软件对RTX408016GBFE显卡进行超频，先把功耗与温度的限制拉到最高，同时把电压解锁到100%，这样我们就可以对显卡进行超频了。核心+190MHz,TimeSpy测试中的默认得分为29394，其40秒的核心频率为3000MHz。

随后我们直接把核心+200MHz,显存+500MHz,这时候核心在运行TimeSpy测试的频率已经达到了3000MHz，直接通过了TimeSpy压力测试。

最高核心频率只能控制在核心+250MHz,显存+1400MHz,TimeSpy测试中的默认得分为30196，其40秒的核心频率为3045MHz，显存频率为1575.25MHz，相比默认频率提升了7.3%。

小结：RTX408016GBFE显卡起步潜力其实相当强，但是我们利用HWINFO64在旁监测，核心与显存超频后最高TDP被限制在了350W。相信一些AIC厂商在更强供电规模的情况下，有着更进一步的超频潜力。

总结：

对于一款定位次旗舰的显卡来说，RTX408016GB性能表现的确是比较养眼的，无论是理论性能，常规游戏，还是支持DLSS3的最新游戏，RTX4080在多个分辨率下都有着较为出色的性能表现。尤其是在DLSS3的加持下，分辨率越高比上代RTX3080Ti性能提升就越大，即使是4K分辨率也能享受120Hz流畅丝滑的体验，甚至你降低画质也能在8K分辨率上体验到60FPS。

至于创作者能力上，RTX408016GB仍给我们较为满意的答案，专业领域方面性能上的提升甚至比上代30系列旗舰都要比下去，专业用户也可以享受到更为全面的提升。果然RTX40系列显卡是冲着专业用户而来的。

当然如果是你小视频工作室，那么此款显卡也会是不错的选择，AV1的加持与NVIDIA双编码器技术的应用越来越多，在同画质的情况下，编码导出时间更快，占用容量更低。

最后自然是价格，RTX408016GBFE零售报价9499元，这价看着不低但开卖的时候大家还是很实诚的，你看当时RTX409024GBFE直接买断货就是同样的道理，相信RTX408016GBFE同样会被买断，毕竟性能、功耗、温度这三者就已经比目前同档次的显卡都要好。

9ADA架构回顾

技术回顾：AdaLovelace架构优势

Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元，以及面向AI推理的TensorCore单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RTCore和三代TensorCore基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代RTCores与第四代TensorCores单元，同时加入众多新颖的黑科技，从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores（张量核心）、4个TextureUnits（纹理单元）、256KBRegisterFile（寄存器堆），以及128KBL1数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32+INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForceRTX4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了，比上一代的RTX3090Ti显卡的40TFLOPS，还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128KB的缓存，这样RTX4090/RTX4080显卡中就实现了更大的L1/共享内存以及更大的L2缓存，因此AdaLovelace架构核心对显存位宽的依赖性并不高。

技术讲解：第三代RTCores与第四代TensorCores

以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速，第三代RTCores的有效光线追踪计算能力达到191TFLOPS，是上一代产品2.8倍。

在Ampere架构中，第二代RTCores支持边界交叉测试（BoxIntersectiontesting）和三角形交叉测试（TriangleIntersectiontesting），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元：OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine，主要是用于alpha通道的加速，可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中，开发人员使用一些Alpha通道的素材来实现更高效的画面渲染，例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理，那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示，在AdaLovelace架构中，通过1个基底三角形+位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RTCores更低，效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在AdaLovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程，减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序（ShaderExecutionReordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代RTCores与第四代TensorCores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用GPU资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎，具有高达1.32petaflops的张量处理性能，超过上一代的5倍。

技术讲解：DLSS3

或者说第四代TensorCores太硬核你不会知道是啥？提升意义在哪？但是TensorCores最经典的应用DLSS你肯定会知道，这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。

之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

在DLSS3中包含了三项技术：DLSS帧生成、DLSS超分辨率（也称为DLSS2）和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS帧生成技术；而后两技术中，DLSS超分辨率只需要GeForceRTX显卡都能使用上，NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单，这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是：利用AI技术生成更多帧，以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而AdaLovelace架构的光流加速器升级到了第二代，其提供了高达300TeraOPS(TOPS)，比安培架构的初代光流加速器（OpticalFlowAcceleration，OFA）快2倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外，由于DLSS帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的，游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能，所以DLSS3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点：NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后，直接达到1440p分辨率360FPS的体验，这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布，包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz，而最猛的是ASUSROGSwift360HzPG27AQN，刷新率直接来到了360Hz。

技术讲解：双NVIDIA编码器（NVENC）

GeForceRTX40系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1编码器可将效率提高40%，同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容，这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。