DeepSeek V3.2-Exp：为了省钱，AI 终于学会了“偷懒”

作为一名“感觉式编程”爱好者，我的日常就是把几万行的代码扔给 AI，让它帮我重构。但这种玩法的最大痛点就是：贵。

直到 DeepSeek V3.2-Exp 发布。

很多同学看到这个名字会发懵：“V3.1 我知道，V3.2 我也能理解，这个 Exp 是什么鬼？是过期（Expired）的意思吗？”

当然不是。Exp 代表 Experimental（实验性）。

而在 AI 领域，通常“实验性”意味着不稳定，但 DeepSeek 这次发布的 V3.2-Exp 却意外地成为了开发者圈子里的“版本答案”。今天我们就来扒一扒，这个模型到底在搞什么名堂，以及那个听起来很玄乎的 DSA (稀疏注意力) 到底是怎么帮你省钱的。

💡 省流版
DeepSeek V3.2-Exp 并没有比 V3.1 更聪明，但它通过**“DSA 技术”学会了在阅读长文时“跳读”**。
结果就是：智商没降，但处理长文档/长代码的价格直接砍半。

1. 什么是 “Exp” 版本？

在 DeepSeek 的产品线里（包括 V2.5, V3, V3.1-Terminus），通常正式版追求的是**“综合能力的六边形战士”**。

而 V3.2-Exp (发布于 2025.09.29) 是一个特殊的存在。它是为了验证下一代架构而放出来的“先行版”。

参数量：依然是 685B（混合专家模型 MoE）。
定位：它不是为了刷新逻辑推理的上限（做数学题请左转找 R1 或 V3.1），它是为了解决 “长上下文（Long Context）太贵太慢” 这个问题而生的。

要理解 V3.2-Exp 为什么便宜，得先懂 AI 平时是怎么“读书”的。

以前的模型（包括 GPT-4 和早期的 DeepSeek），在看你发的 10 万字小说时，它是**“全对全”**关注的。

DeepSeek 在 V3.2-Exp 里首次引入了 DSA (DeepSeek Sparse Attention)。
这就好比一个**“经验丰富的老教授”**：

大家最关心的是：“它跳着读，会不会漏掉关键 Bug？”

根据官方技术报告和社区（包括 SWE-bench）的实测数据：

代码能力：在 SWE-bench Verified 榜单上，V3.2-Exp 的得分是 67.8%，跟 V3.1-Terminus 几乎持平，甚至超过了 OpenAI 的 GPT-OSS-120B。
长文本：在 128k 窗口的“大海捞针”测试中，并没有因为“稀疏”而导致召回率下降。

结论：在绝大多数场景（写代码、读文档、摘要）下，你感觉不到它变笨了，但你能感觉到它变快了。

理由只有一个：极其暴力的性价比。

得益于 DSA 技术大幅降低了计算密度，DeepSeek 官方直接把 V3.2-Exp 的 API 价格定到了 V3.1 的 50% 以下。

对于我们这种喜欢把整个 src 文件夹扔给 AI 做重构的“感觉式编程”玩家来说：

虽然我很吹它，但毕竟带有 “Exp” 后缀，有两个坑需要注意：

多语言代码稍弱：在处理非主流编程语言或混合语言项目时，V3.2-Exp 的表现略逊于 V3.1（可能是稀疏注意力在生僻语料上的对齐还不够完美）。
极度复杂的数学推理：如果你是用它来做奥数题或者推导物理公式，建议还是切回 DeepSeek-R1 或 V3.1。DSA 的“跳读”策略在需要严密逻辑链条的数学题上偶尔会“断链”。

DeepSeek V3.2-Exp 并不是一个“换皮”版本，它是 AI 架构从**“暴力美学”走向“精细化管理”**的重要一步。

如果你是以下人群，请立刻把 API 模型 ID 改成 deepseek-v3.2-exp：

现在的 AI 已经学会帮老板省钱了，你学会帮自己省 Token 了吗？

技术扫盲

#AI #LLM #DeepSeek #DSA #降本增效

DeepSeek V3.2-Exp：为了省钱，AI 终于学会了“偷懒”

https://teach.zhoulirui.ggff.net/DeepSeek V3.2-Exp：为了省钱，我们让AI 学会了“偷懒”/

作者

小瑞子吖

发布于

2025年11月29日

许可协议