在冲向 AI PC 的赛道上,每一个芯片、设备企业都生怕落后。
这场竞速赛,目前苹果生态大幅领先,爱范儿在上周的 Mac Studio 评测中,成功在本地部署并运行 DeepSeek Q4 量化版 671B 和 70B 版本,而且 token 吞吐性能不错,展现了 M3 Ultra 芯片以及高达 512GB 统一内存的实力。
而在 x86 阵营这边,目前最有竞争力的「车队」AMD,正在试图加速超车。
在 3 月 18 日举办的 AMD AI PC 创新峰会上,公司高级副总裁、计算与图形总经理 Jack Huynh 展示了在 AMD 架构笔记本电脑上运行 DeepSeek 大模型的能力。
根据现场展示,一台搭载 AMD 锐龙 AI Max+ 395 处理器的笔记本电脑,顺利运行了 DeepSeek-通义千问融合 7B 大模型。Token 秒速并没有公开,但根据现场肉眼观测的结果,结合我们过往在不同机型上测试的经验,现场速度应该至少能够达到 15 tok/s 以上。
需要说明的是,根据现场 demo 区显示,这一部署和运行结果依赖 AMD StrixHalo LLM 软件,一个 AMD 开发的大模型运行环境。根据我们的理解,背后逻辑简单来说,AMD 会对支持的大模型进行内部优化,显著降低单位 token 激活参数成本,然后再将支持能力通过锐龙 AI 软件实装到用户本地设备。
而锐龙 AI Max 处理器家族本身也支持了更高的显存分配能力。在现场我们看到,AI Max 支持最高 96GB 的显存分配,让处理器集显获得了高端独立显卡才能实现的性能,而这一性能既可以用于 AI 训练和推理计算,也可以用于游戏。
经过优化之后,参数量再大也不愁。在 demo 区的示例中我们看到,前述同款芯片在华硕 ROG 幻 X 2025 款笔记本电脑上,最高可以运行 meta 开发的 Llama 3.1 70B 大语言模型。
尽管参数量极大,过往对硬件要求也极高,远超过去业界对于移动计算设备本地推理能力的认知上限——笔记本电脑现在也可以顺利且轻松地运行数百亿参数量的大模型了。
AMD 这样做的目的,是确保基于大模型的企业级应用和科研能力,能够被普及到 x86 阵营的笔记本,甚至配置更轻便的移动计算设备。目前,AMD AI PC 环境支持 DeepSeek 1.5B、7B 等主流型号的大模型。
如果笔记本不足够的话,AMD 也为真正的重型用户提供了能够运行 DeepSeek R1 全参数大模型的服务器方案,领先了英伟达一步(后者可能会在明天凌晨更新 AI 计算集群模块化产品)。
现场展示了两种不同方案,其一是 AMD 自主的方案,基于 vllm 框架,采用 8 x W7900/78000 显卡,可以完全离线本地部署 DeepSeek 671B,为企业内部研发和知识产权保驾护航。
其二是 AMD 和群联电子合作的 aiDAPTIV+ 方案,大致逻辑是让显卡通过 NAND 闪存扩展内存,从而打破单卡的显存瓶颈。通过现有 AMD 显卡,同样可以在单机的形态下实现 DeepSeek 671B 全参数级别训练的能力。
当然,大多数人只是纯粹的 AI 应用用户,而非开发者。所以 AMD 在这次峰会现场也和 OEM 合作伙伴一起,展示了各类主流形态的消费级 AI 应用。
很有意思的是现场的 demo 之一,由清醒异构开发,基于 AMD Ryzen AI 平台的大模型图片生成工具「绘梦师」。它支持文生图、图生图、边画边生图等生成模式,而且完全可以在本地运行,不需要联网。
再比如联想展示的个人智能体「小天」作为 PC 端的 AI 入口,其背后的大模型可以根据个人数据训练和优化,在前台具备任务分解和规划、自然交互、长期记忆、工具调用等能力。
最近一年时间里,AI 技术发展的太过于迅猛,能力上限一再提高,大模型可选项也与日俱增。但受制于设备本地计算能力,PC 行业也在面临很大的挑战。
而考虑到最大的友商目前面临非技术困难,AMD 作为 x86 阵营另一个底层计算技术头部厂商,认为自己必须肩负责任,迎接挑战,领导变革,让 AI 能够真正通过 AI PC 进入千家万户和千行百业。
在峰会上,AMD 给了 OEM 合作伙伴很大的露出机会。包括微软、联想、华硕、宏碁、惠普等生态合作伙伴,纷纷带来了基于最新 AMD 锐龙 AI 处理器家族的 PC 新品。
AI PC 的品牌和机型的选择权宽度,AI PC 产品本身的大模型运算能力,以及不同消费级场景的应用丰富度,对于 PC 品牌和芯片厂商们在 AI 时代守住本阵营市场份额尤为重要。
0 条