DeepSeek V4模型发布:长上下文能力突破,计算需求大幅降低

DeepSeek V4模型正式发布,引入全新注意力机制,实现1M上下文处理,同时降低计算需求。本文将详细介绍其功能、性能对比及价格调整。

7AI工具DeepSeek V4长上下文计算需求模型发布

DeepSeek V4模型正式发布,带来了前所未有的长上下文处理能力,同时大幅降低了计算需求。

该模型引入了一种全新的注意力机制,在token维度进行压缩,结合DSA稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力。与V3.2版本相比,DeepSeek V4在1M上下文处理方面具有显著优势。

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降 1

算力需求降低3~10倍

DeepSeek V4在算力需求方面也取得了显著成果。与V3.2版本相比,V4-Pro版本的计算量降低了3.7倍,V4-Flash版本降低了9.8倍。这意味着,同样的显卡和显存可以处理更多的请求,对大模型提供商来说是一个利好消息。

与同行对比

指标GPT-5.4Claude Opus 4.6Gemini 3.1 ProDeepSeek V4 Pro-Max
MMLU-Pro87.589.191.087.5
SimpleQA45.346.275.657.9
GPQA Diamond93.091.394.390.1
HLE39.840.044.437.7
LiveCodeBench88.891.793.5
Codeforces316830523206
Apex Shortlist78.185.989.190.2

此外,DeepSeek V4在多个性能指标上均优于同行,如MMLU-Pro、SimpleQA等。

价格调整

DeepSeek V4的价格也有所调整。V4 Flash版本降价,而V4 Pro版本全面涨价。具体价格如下:

最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降 2

模型输入(缓存命中)输入(未命中)输出上下文
V3.20.2 元2 元3 元128K
V4 Flash0.2 元1 元2 元1M
V4 Pro1 元12 元24 元1M

总体来看,DeepSeek V4在性能和价格方面都具有竞争力。

总结

DeepSeek V4模型的发布标志着长上下文处理能力的突破,同时大幅降低了计算需求。对于需要处理大量文本数据的用户来说,DeepSeek V4是一个值得关注的模型。