DeepSeek模型更新！上下文提升至百万Token 可处理三体小说全集

http://chaguwang.cn 2026-02-12 08:35 IDC概念（数据中心）板块热点狙击

大位科技

13.86+10.00%

特发信息

19.50+9.98%

联德股份

61.20+5.52%

同星科技

39.79+2.87%

东方国信

15.31+10.14%

DeepSeek传闻中的V4尚未正式发布。2月11日，多位用户反馈DeepSeek已在网页及App端进行版本更新，上下文窗口由原有的128K直接提升至1M（百万Token）级别。

《科创板日报》记者实测中发现，DeepSeek在问答中称自身支持上下文1M，可以一次性处理超长文本。此外，版本模型知识库截止时间更新至2025年5月。不过，新版本目前不支持视觉输入，也不具备多模态识别能力。

《科创板日报》记者进一步询问模型的版本，DeepSeek称没有固定的版本号，更像一个持续进化的"最新版”

在尝试提交了超过24万个token的《简爱》小说文档后，DeepSeek可以支持识别文档内容。

三体三部曲合计总计90万字，这也意味着DeepSeek能够单次完成处理《三体》全集的长文本。

记者随即提交了《三体》全集，DeepSeek的处理速度相较文字更少的《简爱》要慢一些，但也在几分钟内完成了文档阅读。

值得关注的是，近期DeepSeek开放了多个技术岗位招聘，包括产品经理/模型策略产品经理、客户端/前端/全栈研发工程师等。

此外，DeepSeek还在1月14日发布了CFO的岗位招聘。

目前，能将上下文推至百万级别的模型较少，谷歌的Gemini系列和Anthropic的Claude Opus 4.6等已率先实现。

DeepSeek的V系列模型定位为追求极致综合性能的基础模型。2024年12月推出的基础模型V3是DeepSeek的重要里程碑，其高效的MoE架构确立了强大的综合性能基础。此后，DeepSeek在V3基础上快速迭代，发布了强化推理与Agent（智能体）能力的V3.1，并于2025年12月推出了最新正式版V3.2。同时，还推出了一个专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale。

科技媒体The Information此前爆料称，DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4，将具备更强的写代码能力。

随着这个日期迫近，襁褓中的V4成了关注焦点，Deepseek的每一次更新，都引来诸多关注。据《科创板日报》梳理，今日的版本更新之外，年初以来，Deepseek公布了两项底层架构突破，并释放一个旗舰迭代信号。

今年初，DeepSeek团队发表两篇论文，公开了两项创新架构：mHC（流形约束超连接）用来优化深层Transformer信息流动，使模型训练更稳定、易扩展，在不增加算力负担前提下提升性能；Engram（条件记忆模块）将静态知识与动态计算解耦，用廉价DRAM存储实体知识，释放昂贵HBM专注推理，显著降低长上下文推理成本。

这两项技术被认为是中国大模型突破“算力芯片和内存瓶颈”的算法创新，创始人梁文锋均署名参与相关论文。

1月21日，R1模型发布一周年之际，DeepSeek新模型“MODEL1”曝光。DeepSeek官方GitHub仓库更新了一系列FlashMLA代码，借助AI对全部总代码文件数:114个（包括.py, .md, .txt, .sh, .cpp, .cu, .h文件）进行分析，发现了一个此前未公开的模型架构标识“MODEL1”，共被提及31次。

来源：科创板日报

免责条款：★★以上摘录不保证没有疏漏，仅供参考！★★