英伟达在9月20日的GTC大会上推出了GeForce RTX 4090,这引起了我们的极大兴趣。我们有幸第一时间拿到了公版的4090,并找来曾帮助我们搭建上一代计算机的koukou,共同搭建了一个基于40系的测试平台。本文将从游戏表现开始,深入探讨英伟达在GTC大会上宣传的DLSS 3技术,最后结合AI应用,进行全面分析。
首先,让我们来了解下4090显卡的硬件特点。公版4090采用了与30系相似的设计风格,相较于3090,它的长度减少了约10mm,厚度增加到61mm,达到了标准的三槽尺寸。风扇直径从9cm提升至9.5cm。这款4090在体积上更为紧凑,是所有40系非公卡中最小巧的。
在配置方面,我们搭建了一个由12900K和华硕M14H组成的测试平台。内存采用了海盗船的铂金统治者DDR5 6200C36,散热采用了追风者的T30,电源选用了海韵的focus1000W金牌全模组。同时,我们还准备了一个XTIA的Xproto ATX机架作为对比,用于与七彩虹的火神3090TI进行性能比较。
接下来,我们进行了3DMark跑分测试。RTX4090在传统光栅测试中的成绩显著提升,特别是在针对DX11和FSE、FSU以及DX12的time spy等场景中,提升幅度均超过65%。在实际游戏测试中,4090在不开启光追和DLSS的极高画质下,平均帧数提升了26%到近70%不等。
在光追测试和游戏性能方面,RTX4090的表现同样亮眼。在传统的3A大作中,相比上一代,平均帧数提升幅度在50%左右。对于支持DLSS 3的游戏,开启该技术后,帧数至少翻倍,最高可达4倍。结合DLSS 3和Reflex功能,游戏不仅帧数大幅度提升,插帧后的延迟也显著降低,甚至低于4K原生画面下的延迟。
接下来,我们将深入探讨DLSS 3技术及其在AI领域的应用。DLSS中文名为“深度学习超级采样”,它在实测的游戏中,开启后帧率提升高达4.2倍,最低也有2.1倍。实际体验中,画面流畅度的提升最直观,这是通过插帧实现的。
与传统插帧算法相比,DLSS 3插帧展现出明显的优势。通过对比开源项目dxcam的程序脚本抓取的插帧画面和原生帧,我们发现,虽然插帧帧与原生帧在静物上无明显区别,但在移动物体上,插帧帧周围会出现细小的噪点,尤其是在大动作下更为明显。与Topaz AI插帧软件进行对比,深度超采插帧在处理大动作时更为精准,保留了物体的清晰度,而Topaz的传统插帧AI则无法准确处理大动作,导致画面变形。
DLSS 3的技术支持来自AI人工智能,它不仅能提供插帧功能,还通过获取额外信息,如画面中每个像素指向场景中的点、物体运动位移和深度信息、画面渲染时的信号抖动偏移以及曝光量等,进一步加深AI对场景的理解。这种技术的实现需要多个层面的优化,包括硬件和软件的改进,最终通过多个技术的综合发力,实现了插帧功能的高效实现。
在面对延迟问题时,英伟达的Nvidia Reflex技术在FPS竞技游戏中已有所应用,通过降低CPU和GPU之间的渲染队列延迟,提高了游戏实时性。在Ada架构下,深度超采插帧功能的实现需要克服延迟问题,通过优化硬件和算法,最终在保持高质量插帧的同时,将延迟控制在可接受范围内。
对于插帧功能,Ada架构的RTX 4090提供了强大的支持,但由于技术挑战,目前仅在高端卡上实现。前代显卡通过软件优化,也能逐渐支持插帧功能。英伟达在AI技术领域的创新,如深度学习生成的Ada Lovelace画像,展示了AI在艺术创作领域的应用潜力。此外,针对AI运算的硬件升级,如支持FP8低精度浮点数,为新兴AI架构Transformer提供了关键支持。
最后,我们讨论了Transformer AI在语音识别领域的应用,如OpenAI发布的Whisper语音识别AI,它基于Transformer架构,能以惊人的速度和准确性识别各种语言。这种技术的引入,预示着未来语音助手等应用将得到显著提升。
温馨提示:内容为网友见解,仅供参考