今天早上,老黄再次穿着皮衣,在中国台湾省带来了一场 GTC ( GPU 技术大会 )。
和之前不一样的是,这次老黄先上来感谢了一波合作伙伴。
比如什么王记府城肉粽啊、花娘小馆啊、肉霸王猪脚啊。。。
你这是什么合作伙伴?
老黄干饭的合作伙伴吗?
直接大中午给屏幕前的给托尼看饿了。
当然了这次 GTC 也不是全是吃货,托尼听完了整个演讲后,发现老黄今年给大家憋了两波大的。
>/微软和英伟达正在重新定义整个PC产业
这次,老黄没有忘了咱们这些臭打游戏的。
话不多说,直接掏出了 RTX Spark,也就是之前传闻许久的 N1X 处理器。
作为 NVIDIA 与微软、联发科 ( MediaTek ) 深度协作的结晶,RTX Spark 一出手,就是想打破 40 年以来传统电脑的架构局限。
等会,哪儿局限了?是冯诺依曼架构不行了,还是制程工艺发展到极限了?
其实都不是。要托尼说啊,PC 现在面临的真正问题是:
传统 PC 架构和本地 AI 的需求产生了严重冲突。
大家还是想跑本地大模型的,但是本地大模型想跑起来却不太可能。
简单点来说,就是现在的电脑根本不适合跑本地 AI。
显卡里的显存虽然能跑 AI,但是显存的容量实在是太小了,即使是最旗舰的 5090 显卡,也只能给到 32GB 的显存,你想跑的模型稍微大一点,那就直接打出 GG。
而电脑里常用的内存虽然容量够大,但是读写的速度又太慢了,让它来跑大模型,确实有些难为人。
所以在传统 PC 上跑 AI,一直是个大问题。
直到苹果 M 系列处理器的出现。M1 芯片把 CPU、GPU、NPU 和高带宽内存全部封装在一颗 SoC 里,搞了套统一内存架构出来,才让大家发现 AI 原来可以这样搞。
不分什么内存,显存,CPU 和GPU共用同一个内存池。没有所谓显存的桎梏,能给AI用的内存可就多太多了。
所以这两年我们能看到,果果的 Mac Studio 靠着最高 8 通道、512G 内存,跑 AI 实在太香了;AMD 这边也推出了 AI Max+ 395,虽然性能稍逊,但采用了类似的架构,在 128G 内存的加持下,分一部分给显卡也足以跑动中等参数量的模型。
这些能跑 AI 没错,但他们对 AI 的支持,始终差了点意思。要说 AI 生态最好的,不是苹果,也不是 AMD,而是深耕 CUDA 生态这么多年的英伟达。
或许是不愿眼看着本地 AI 这块市场拱手让人,又或许是看到了智能体 ( Agent ) 时代大爆发,总之老黄是真坐不住了。
凭什么你苹果和 AMD 能做统一内存架构,我老黄就不能做呢?
于是,RTX Spark 来了。这玩意的 CPU 部分是英伟达与联发科合作定制的 Grace CPU,由 20 个 Arm 核心组成。根据目前爆料的跑分,大概是和几年前苹果的 M3 Max 差不多的水平。
而 GPU 方面则是塞进去了 48 个流处理器,共计 6144 个 CUDA 核心,性能相当于桌面端的 5070显卡。这个规模可一点都不小。如果论 AI 更关注的算力来看,在 NVFP4 精度下,可达 1P,也就是 1000 TOPS 的水平。
作为 AI 时代的处理器,RTX Spark 也吃上了统一内存,最高 128G 的容量,可以跑不少模型了。
只是这个统一内存的读取速度只有 273 GB/s 的速率,和 AMD 的 AI Max+ 395 在一个水平,比果果低了一些。不过 CPU 和 GPU 之间倒是直接用上了服务器端的 NVLink,最大 600 GB/s 的带宽,完爆了传统 PC 上的 PCIe 互联。
所以这玩意实际跑起来是个什么水平,还得等正式到手了再试试看才知道。
当然,英伟达最大的杀手锏,还是 CUDA 生态能让各种 AI 应用快速跑起来。
在现场老黄就演示了这么一个场景:通过 Agent 串联 ComfyUI、Blender 等工具,在一台个人电脑上就能完成房间绘图、建模、渲染、AI 生成预览图的全套流程。
哎,我当时装修要有这玩意该多好。
咳咳,扯远了哈,在 AI 之外,英伟达曾经的老本行——游戏,在 RTX Spark 上也没忘掉。以 RTX Spark 的规模,跑个 2K 游戏没什么问题。
而且在之前的 Windows on Arm 上头疼的反作弊问题,老黄和微软也做了努力,打通了 Easy Anti-Cheat 和 BattlEye 等主流 PC 网游反作弊底层组件的 ARM 原生兼容。
老黄还当场端出来两台笔记本,一台跑着最新的《007》,另一边也跑着最新的《地平线 6》,托尼还挺好奇实机的兼容性到底怎么样。
要是有机会的话自然是要给差友们测试一波的。
>/造一块不给人用的CPU:
当然,除了照顾我们这些普通消费者之外。
真正能给英伟达赚大钱的服务器行业,老黄也没落下。
这次,它们已经不满足于把 CPU 卖给人类了。
在英伟达的眼里,现在的 CPU,已经跟不上GPU的思必得了。
在现场老黄打了个比方,说如果 GPU 是一个乐团的话,那么 CPU 就是这个乐团的指挥家。
乐团想要演奏出合适的音乐,那指挥的手速必须得跟上。
而现在,随着 Claude Code、龙虾这样的 Agent 工具越来越火, CPU 干活的速度,已经满足不了 GPU 了。
举个例子,我们让 Agent 随便干点活,让它帮我去总结一下英伟达最新一季的财报。
这时候,CPU 就要负责去网上找点资料,先确认最新的财报是哪一季的,然后再去网上搜索,找到目标后,再跑个下载脚本把财报给下过来。
把这些活都给干完了之后,才会正式开始财报分析。
回顾整个流程,你会发现 Agent 它没办法一次性把活给干完。
都是先让GPU干点活,然后让 CPU 接力再干点活,接着再让 GPU 来干活的连环交替类型。
如果 CPU 性能不够高的话,那么 GPU 直接开始在原地空等,那不是纯纯浪费么。
老黄直接摊牌了,说现在的 CPU 已经成了 GPU 利用率的瓶颈。
所以这次,他们专门造了一款给 Agent 工具用的 CPU —— NVIDIA Vera。
这玩意可以说从头到尾都是盯着这一件事延迟来优化的。
过去,绝大多数的服务器 CPU,其实都是由好几个小芯片给拼起来的,这样做的好处是你做芯片时的良率更高,成本更低。
坏处就是核心和核心之间的通讯速度就没那么快了,核心和核心之间想发条消息,得去外头绕一圈路。
而 Vera 就没这么麻烦了,为了让它干活干的更快,老黄直接把 88 个计算核心给做在了一块芯片上。
这就让这些核心之间的通讯速度直接提升了 50%,双车道变三车道了属于是。
而且老黄还给人保留了一条额外的高速公路,Vera CPU 可以通过 NVlink 直接和 GPU,或者是另一枚 CPU 来沟通数据。
这样几板斧下来之后,Vera 干活的速度已经被老黄调教的有些夸张了。
老黄拿 Starburst 的 SQL 分析测试举了个例子,在同样的分析数据的基准测试里,Vera 的运行速度是 X86 CPU 的 3 倍。
在纽约交所的实时流测试里,Vera CPU 更是硬生生把计算延迟给压到了原来的六分之一。
要是有这机房来让我炒股,那可能巴菲特来了都得叫托尼一句股神了。
>/被AI再次塞满的英伟达
当然,除了这两颗 CPU 之外,老黄这次的 GTC 还分享了不少好玩东西。
其中有教你怎么建数据中心的赛博攻略 DSX。
让你在真正破土动工之前,用模拟软件先把工厂的电力、冷却、网络环境给模拟测试一遍。
还有一整套给 Agent 用的大礼包,有面向企业的 Agent 工具套件,还有让 AI 注意安全的 OpenShell 框架。。。
最后还拿出了一个给机器人和自动驾驶准备的世界模型:Cosmos 3 .
总而言之,这次的老黄,再次给我们规划了一个被 AI 给塞满了的世界。
这些东西都很酷,不过对托尼来说,可能最关注的,还是前面提到的 Spark。
毕竟我只是个臭打游戏的。
在过去四十年里,PC 市场始终被 Intel 和 AMD 组成的 "双雄联盟" 牢牢把持。高通虽然率先进军 Windows ARM 生态,但无论是 GPU 硬件实力,还是 Windows 上的 DirectX 生态,都总透着一股水土不服的味道。
而且全新平台的起步,往往伴随着软件开发商与 OEM 厂商对于平台 “ 浅尝辄止 ” 的担忧。这也是 Windows 笔记本在目前为止,仍然以传统的 X86 为主的原因之一。
好在英伟达也是知道新平台的推广难度的。一方面,老黄宣布了未来直到 2030 年的技术路线图,现在是 Blackwell Spark,未来则是 Rubin Spark 和 Rosa Feynman Spark。
换句话说,RTX Spark 这条路,老黄是做好了打持久战的心理准备。。。
再说了,有着 RTX 和 CUDA 这两块金字招牌的号召力,就算要搞软件和游戏的底层适配,那速度和积极性,也绝对不是曾经的高通 × 微软联盟能比的。
现在球已经传出去了,老黄这边可以说是尽了人事,下一步,压力全给到了微软这边。
不论如何,RTX Spark 能否推广出去,一方面取决于产品定价,另一方面取决于 Windows on ARM 本身能否支棱起来。
撰文:洛洛 & 早起
编辑:江江 & 面线
美编:素描
图片、资料来源:英伟达官网