2025 年 3 月 25 日,DeepSeek 宣布推出其最新大语言模型 DeepSeek V3-0324,声称该模型在推理能力上较前版本有显著提升。作为一家成立于 2023 年的中国 AI 公司,DeepSeek 以其高效且成本低廉的模型开发而闻名 。
DeepSeek 由梁文锋创立,隶属于中国对冲基金 High-Flyer,专注于开发大语言模型(LLMs)。该公司于 2023 年 7 月成立,迅速因其低成本高性能的模型(如 DeepSeek-V3)吸引了全球关注 。DeepSeek-V3 的训练成本仅约 600 万美元,远低于 OpenAI 的 GPT-4(约 1 亿美元)和 Meta 的 Llama 3.1(约 1 亿美元的计算资源)
DeepSeek V3-0324 的发布
DeepSeek V3-0324 是 DeepSeek-V3 的更新版本,发布日期为 2025 年 3 月 24 日(根据模型命名“0324”推测,符合近期更新时间) 。该模型通过后训练增强了推理能力,具体方法是从 DeepSeek-R1 模型中提炼知识。
推理能力的提升
DeepSeek-R1 是一个专注于推理的模型,通过大规模强化学习(RL)开发,旨在解决复杂问题和逻辑推理任务 。DeepSeek V3-0324 的后训练过程包括从 DeepSeek-R1 中提炼长链式思维模型的验证和反思模式 。这种方法显著提升了模型在推理任务上的表现,例如:
- 在 AIME 2024 的 pass@1 得分从 15.6% 提升至 71.0%,通过多数投票进一步提升至 86.7%,接近 OpenAI-o1-0912 的表现。
- 在教育基准测试中,DeepSeek V3-0324 在 MMLU 上得分 88.5,在 MMLU-Pro 上得分 75.9,在 GPQA 上得分 59.1,优于所有其他开源模型。
此外,该模型在代码和数学任务上表现尤为突出,成为目前最强的开源基础模型。
与前版本的比较
与 DeepSeek-V3 相比,DeepSeek V3-0324 的主要改进在于推理能力的增强。DeepSeek-V3 本身更适合日常任务如内容创作和通用问答,但缺乏深度推理能力。通过从 DeepSeek-R1 提炼,V3-0324 能够处理更复杂的逻辑问题和多领域应用 。
成本与效率
DeepSeek V3-0324 的训练成本保持低廉,仅需 266.4 万 H800 GPU 小时,约 600 万美元 。这得益于其混合专家架构(Mixture-of-Experts)和高效计算调度。相比之下,美国公司的类似模型训练成本往往高达数亿美元,这使得 DeepSeek 在全球 AI 市场中具有竞争优势。
潜在影响
DeepSeek V3-0324 的发布可能对 AI 行业产生深远影响:
- 市场竞争:低成本高性能的模型可能挑战美国科技公司的主导地位,导致如 Nvidia 等芯片制造商的市值波动。
- 开源生态:作为开源模型,DeepSeek V3-0324 的发布可能推动 AI 研究的民主化,降低开发者的准入门槛 。
- 应用场景:增强的推理能力使该模型适用于教育工具、研究应用和 AI 驱动的推理任务 。
争议与挑战
尽管 DeepSeek V3-0324 表现优异,但也面临一些争议:
- 技术局限:一些分析认为,其推理能力虽有提升,但仍依赖训练数据,可能在全新问题上表现有限 。
- 地缘政治影响:作为中国公司,其发展可能受到美国出口控制和芯片限制的影响,引发技术竞争加剧 。
DeepSeek V3-0324 的发布标志着大语言模型在推理能力上的又一进步。其低成本高性能的特性可能改变 AI 行业的竞争格局,同时也为开源社区提供了强大的工具。未来,其在实际应用中的表现和对全球 AI 生态的影响值得进一步观察。
表格:DeepSeek V3-0324 的关键指标
指标 | 数值/描述 |
---|---|
训练成本 | 约 600 万美元,266.4 万 H800 GPU 小时 |
MMLU 得分 | 88.5 |
MMLU-Pro 得分 | 75.9 |
GPQA 得分 | 59.1 |
AIME 2024 pass@1 得分 | 71.0%(多数投票后 86.7%) |
推理能力提升方式 | 从 DeepSeek-R1 提炼 CoT 模式 |
文章整理来源:www.lisheng.me
评论前必须登录!
立即登录 注册