省钱，我只服梁文锋

首页
关于我们
精彩赛事
服务项目
最新资讯
联系我们

年度体育人物

2026年6月20日
江南体育
5 条评论
赛事直播

DeepSeek长期以来因服务器频繁崩溃而备受批评，但这种情况有望得到改善。其原因在于一篇题为《DSpark：基于置信度调度的推测解码与半自回归生成》的论文的发布，该论文由梁文锋挂名发表。依照DeepSeek的命名习惯，DSpark应读作“D·Spark”。

这是梁文锋自2024年发表《DeepSeek LLM》以来的第12篇署名论文。值得注意的是，DSpark这篇论文的内容与梁文锋在2010年提交的硕士毕业论文存在相似之处。DSpark技术被视为DeepSeek的加速器，为用户带来了更快的响应速度、更稳定的体验以及更少的宕机情况。

在相同的回答质量下，DSpark能将生成速度提升60%至80%，将原本需要10秒的回复时间缩短至五到六秒。更重要的是，即使在高峰时段，DeepSeek的“转圈”现象也将不再频繁出现。

DSpark的原理及其对DeepSeek现有问题的解决

大模型生成文本的过程本质上是一个“猜字游戏”，模型在生成每个字时都需要重新审视并计算之前已生成的所有内容，以确定下一个字。这个“自我回归”的过程意味着每生成一个字，AI都需要重新运行一次整个流程，生成100个字就需要重复计算99次。当前模型在生成过程中，必须等待上一步计算完成后才能进行下一步。因此，过去几年，业界一直在探索如何让模型能够一次性生成多个字。

DSpark论文中提出的核心机制——推测解码（Speculative Decoding）——正是基于这一思路。其工作原理是，利用一个速度快但能力稍弱的模型作为“草稿”，让其预先快速生成后续的多个字，然后将这串预估的字一次性提交给大模型进行验证。大模型会快速检查，保留连续猜对的部分，并在第一个错误处开始自行生成正确的字，然后草稿模型继续往下预测。这种方式既保证了输出内容的准确性（由大模型验证），又提高了生成速度。

业界普遍认为存在两种推测解码模式：

“老实人”模式：草稿模型逐字预测，并在每一步预测后都回顾前文。这种方法的优点是输出质量高，但缺点是速度较慢，与大模型独立生成的速度相差无几。
“激进”模式：草稿模型一次性预测出所有后续的字，不考虑前文的完整性，仅依赖于前一个字。这种方式速度快，但预测的字越多，输出质量越低，即所谓的“后缀衰减”，早期预测的准确率尚可，但后期预测的错误率会急剧上升。

DSpark的核心方法是半自回归生成，它结合了上述两种模式。首先，它快速生成后续所有字，然后进行回溯检查，识别语句不通顺或错误。接着，DSpark为每个预测的字赋予一个“置信度得分”，例如第一个字90分，第二个80分，依此类推。然而，直接修改低分预测会使效率回归到传统的自回归模式。

为此，DSpark提出了一种方法：它会预先评估大模型在不同批处理大小下的处理速度，然后根据置信度得分对草稿预测进行排序。它首先将得分最高的一批预测交给大模型验证，这个过程因数据量小而迅速。之后，它会评估是否将下一批预测也纳入验证，计算增加的时间与获得额外正确字数之间的效率比。如果效率值高，则将其纳入；反之则否。

这一过程根据服务器的当前负载进行动态调整。在服务器不繁忙时，会尽可能多地验证预测，以增加正确字数。而在服务器繁忙时，则只验证得分最高的几批预测，避免将可能错误的预测添加到大模型的负担中，从而节省时间并服务更多用户。这个机制被称为置信度调度验证。

以往许多加速方案在单用户测试中表现出色，但在高并发场景下容易崩溃。DeepSeek在高峰时段的卡顿和崩溃，本质上是因为大量用户请求导致GPU批处理压力过大，而之前的MTP-1推测解码方案将算力浪费在验证大量错误预测的token上。即使这些token被大模型迅速驳回，验证过程也消耗了宝贵的GPU资源，显著降低了有效吞吐量，导致请求堆积和用户体验下降。DSpark的部署有望缓解这一问题。

实际测试数据显示，在严格的低延迟要求下（V4-Flash每用户每秒120字），DSpark的吞吐量是MTP-1系统的6倍以上。在中等负载场景下（每用户每秒80字），DSpark的单GPU总吞吐量提升了51%，从每秒10000 token增至15100 token。

成本效益与回答质量的权衡

在人工智能领域，训练成本是一次性投入，而推理成本则是持续消耗。模型的训练投入无论多高，一旦完成便已支出。但推理成本则随着用户使用而不断产生，7x24小时不间断运行，用户越多，成本越高。因此，能够有效降低推理成本的公司将获得竞争优势。反之，即使模型能力再强，如果无法控制推理成本，模型规模越大，厂商的风险也越高。

在同等GPU配置下，DSpark能将用户生成速度提升60%至85%，将10秒的回复时间缩短至五到六秒。在极端场景下，如突发热点事件导致大量用户涌入时，DSpark的动态调度机制能够通过自动缩短验证长度来避免占用关键的批处理资源，从而在不增加硬件的情况下应对流量高峰。

关于回答质量是否会因此下降，答案是否定的。推测解码技术本身的数学原理保证了其输出的每一个token的概率分布与大模型独立生成的结果完全一致。DSpark论文中明确指出，“接纳规则能够精准完整地保留目标分布，投机解码可在不损失输出质量的前提下加速生成过程。”离线测试在数学推理、代码生成和日常对话三个领域均未发现与原模型有统计学上的显著差异。线上部署后，用户反馈也未显示回答质量下降。此外，草稿模型的计算量仅占总计算量的不到10%，其对服务器负载的影响在DSpark带来的51%的吞吐量提升面前微不足道。

DeepSeek一直以低成本著称，推理成本降低40%为其提供了更大的降价空间。其API定价已是行业最低，进一步降低成本可能导致token价格下调，甚至可能增加免费用户的额度。更重要的是，DeepSeek不仅发布了模型权重，还开源了DeepSpec训练框架，这是一个用于训练推测解码草稿模型的统一工具箱，允许用户为Qwen3、Gemma等模型训练自己的草稿模型，从而进一步降低了整个行业的推理成本基准。

坚持16年的成本节约理念

2010年，梁文锋在浙江大学攻读硕士学位期间，其论文题目为《基于低成本PTZ摄像机的目标跟踪算法研究》。这一选题如今看来颇具“梁文锋”的风格。当时，计算机视觉目标跟踪实验室普遍使用昂贵的工业相机，而梁文锋则选择使用价格仅为几百元的普通民用球机。他的核心观点是，硬件上的差距可以通过算法弥补。通过自主研发的跟踪算法优化，他实现了与昂贵设备相媲美的跟踪精度。

16年后，梁文锋依然坚持通过算法降低硬件成本，体现了他“不忘初心”的执着。与其他大模型公司追求性能提升不同，DeepSeek专注于成本节约，这是因为成本的节约直接关系到梁文锋的个人利益。

在DeepSeek完成融资后，有外媒报道称，该公司成立近三年以来，一直由梁文锋创立的幻方量化通过利润支持，并多次拒绝外部投资。幻方量化在2025年实现了56.55%的平均收益率，全年营收约86亿元。梁文锋个人持有85%的股份，年分红达数十亿元，个人资产据估计在500亿至1000亿元之间。在今年启动的首轮超500亿元融资中，梁文锋个人出资200亿元，占总融资额的40%，成为最大单一出资方。外部投资者的资金并非直接注入DeepSeek主体，而是先进入由梁文锋担任普通合伙人的有限合伙企业，外部投资者仅享有收益权和财务信息查阅权，不具备投票权，且所有股份锁定五年，禁止转让和退出。

在DeepSeek，梁文锋集投资者、管理者和研究者三重身份于一身。每一分节省下来的成本，都直接进入了他的个人腰包。在面对“是购买100张GPU还是让团队进行工程优化”的选择时，大多数人会选择前者，因为这能快速见效，且资金并非来自个人。而梁文锋则会选择后者，因为他深知每张GPU需要处理多少token才能实现盈利。这种集研究、管理和投资于一身的模式，形成了一个在AI行业极为罕见的、高效的决策闭环：研究者提出“可以省”，管理者判断“应该省”，投资者确定“即使自己买单也愿意省”。这种无层级汇报、跨部门协调的模式，使得DSpark成为这一决策链的最新成果。

标签:

赛事报道
赛事直播
数据分析
深度观察

1 条评论

江南体育用户

2026年6月15日

欢迎您在此分享您对本文的任何想法、评论或提问。我们的专业编辑团队将认真阅读并及时回复，与您一同深入探讨体育世界的精彩与奥秘！

年度体育人物

1 条评论

江南体育用户

发表您的看法