清华团队突破算力难题：4090显卡单枪匹马就能跑“满血版”DeepSeek-R1！

发布时间：2025-02-16 10:21:34来源：

随着大规模语言模型（LLMs）的不断发展，模型规模和复杂性急剧提升，其部署和推理常常需要巨大的计算资源，这对个人研究者和小型团队带来了挑战。

2月10日，清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：一块24G显存的4090D就可以在本地运行DeepSeek-R1、V3的671B“满血版”。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。

KTransformers通过优化本地机器上的LLM部署，帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段，提升了模型的计算效率，并具备处理长上下文序列的能力。

KTransformers的更新发布后，不少开发者也纷纷用自己的设备进行测试。他们惊喜地发现，本地运行完全没有问题，甚至显存消耗比github里的技术文档中提到的显存消耗还要少，实际内存占用约380G，显存占用约14G。

另外，有用户对方案成本进行分项分析后称，只要不到7万元就能实现R1模型的本地运行，与A100/H100服务器动辄200万元的价格相比，便宜了95%以上。

（责编： admin）