笔记本跑百亿大模型？在 AMD 这里没问题

更新时间：2025-03-19 01:23:23 发布时间：6小时前浏览：6725 评论：0

内容摘要在冲向 AI PC 的赛道上，每一个芯片、设备企业都生怕落后。这场竞速赛，目前苹果生态大幅领先，爱范儿在上周的 Mac Studio 评测中，成功在本地部署并运行 DeepSeek Q4 量化版 671B 和 70B 版本，而且 token

在冲向 AI PC 的赛道上，每一个芯片、设备企业都生怕落后。

这场竞速赛，目前苹果生态大幅领先，爱范儿在上周的 Mac Studio 评测中，成功在本地部署并运行 DeepSeek Q4 量化版 671B 和 70B 版本，而且 token 吞吐性能不错，展现了 M3 Ultra 芯片以及高达 512GB 统一内存的实力。

而在 x86 阵营这边，目前最有竞争力的「车队」AMD，正在试图加速超车。

在 3 月 18 日举办的 AMD AI PC 创新峰会上，公司高级副总裁、计算与图形总经理 Jack Huynh 展示了在 AMD 架构笔记本电脑上运行 DeepSeek 大模型的能力。

根据现场展示，一台搭载 AMD 锐龙 AI Max+ 395 处理器的笔记本电脑，顺利运行了 DeepSeek-通义千问融合 7B 大模型。Token 秒速并没有公开，但根据现场肉眼观测的结果，结合我们过往在不同机型上测试的经验，现场速度应该至少能够达到 15 tok/s 以上。

需要说明的是，根据现场 demo 区显示，这一部署和运行结果依赖 AMD StrixHalo LLM 软件，一个 AMD 开发的大模型运行环境。根据我们的理解，背后逻辑简单来说，AMD 会对支持的大模型进行内部优化，显著降低单位 token 激活参数成本，然后再将支持能力通过锐龙 AI 软件实装到用户本地设备。

而锐龙 AI Max 处理器家族本身也支持了更高的显存分配能力。在现场我们看到，AI Max 支持最高 96GB 的显存分配，让处理器集显获得了高端独立显卡才能实现的性能，而这一性能既可以用于 AI 训练和推理计算，也可以用于游戏。

经过优化之后，参数量再大也不愁。在 demo 区的示例中我们看到，前述同款芯片在华硕 ROG 幻 X 2025 款笔记本电脑上，最高可以运行 meta 开发的 Llama 3.1 70B 大语言模型。

尽管参数量极大，过往对硬件要求也极高，远超过去业界对于移动计算设备本地推理能力的认知上限——笔记本电脑现在也可以顺利且轻松地运行数百亿参数量的大模型了。

AMD 这样做的目的，是确保基于大模型的企业级应用和科研能力，能够被普及到 x86 阵营的笔记本，甚至配置更轻便的移动计算设备。目前，AMD AI PC 环境支持 DeepSeek 1.5B、7B 等主流型号的大模型。

如果笔记本不足够的话，AMD 也为真正的重型用户提供了能够运行 DeepSeek R1 全参数大模型的服务器方案，领先了英伟达一步（后者可能会在明天凌晨更新 AI 计算集群模块化产品）。

现场展示了两种不同方案，其一是 AMD 自主的方案，基于 vllm 框架，采用 8 x W7900/78000 显卡，可以完全离线本地部署 DeepSeek 671B，为企业内部研发和知识产权保驾护航。

其二是 AMD 和群联电子合作的 aiDAPTIV+ 方案，大致逻辑是让显卡通过 NAND 闪存扩展内存，从而打破单卡的显存瓶颈。通过现有 AMD 显卡，同样可以在单机的形态下实现 DeepSeek 671B 全参数级别训练的能力。

当然，大多数人只是纯粹的 AI 应用用户，而非开发者。所以 AMD 在这次峰会现场也和 OEM 合作伙伴一起，展示了各类主流形态的消费级 AI 应用。

很有意思的是现场的 demo 之一，由清醒异构开发，基于 AMD Ryzen AI 平台的大模型图片生成工具「绘梦师」。它支持文生图、图生图、边画边生图等生成模式，而且完全可以在本地运行，不需要联网。

再比如联想展示的个人智能体「小天」作为 PC 端的 AI 入口，其背后的大模型可以根据个人数据训练和优化，在前台具备任务分解和规划、自然交互、长期记忆、工具调用等能力。

最近一年时间里，AI 技术发展的太过于迅猛，能力上限一再提高，大模型可选项也与日俱增。但受制于设备本地计算能力，PC 行业也在面临很大的挑战。

而考虑到最大的友商目前面临非技术困难，AMD 作为 x86 阵营另一个底层计算技术头部厂商，认为自己必须肩负责任，迎接挑战，领导变革，让 AI 能够真正通过 AI PC 进入千家万户和千行百业。