DeepSeek 开源推理引擎新动向与 OpenAI 发布周猜想
浏览:119次 作者:小编近日,AI领域可谓风起云涌,DeepSeek与OpenAI 两大巨头接连抛出重磅消息,引发了行业内外的广泛关注。
4月14日下午,DeepSeek在其open - infra - index 库中悄然发布了一份名为《开源 DeepSeek 推理引擎的路径》的文档,正式对外宣布将开源其内部推理引擎,并积极寻求与开源社区展开更为广泛的合作。值得一提的是,这份文档发布后不久便经历了两次修改,对一些表述进行了更为中立和宽泛的调整。
在其中一次修改里,DeepSeek 提及了与 SGLang 和 vLLM 项目的合作关系,但在新版本中,这两个具体项目名称被替换成了“现有的开源项目”。如此修改,旨在强调“未来的开源合作是面向整个开源社区的,并非局限于某些特定项目”。由此可以推断,DeepSeek 与 SGLang 和 vLLM 这两大开源项目的合作已基本敲定。
不得不说,DeepSeek 此举堪称“GOAT(Greatest of All Time,史上最佳)”!
而就在不久前,Sam Altman 宣布 OpenAI 将开启一轮发布周。犹记得上一次,OpenAI 在连续 12 个工作日里密集发布,o1 满血版、Sora、强化微调技术、Canvas 更新、o3 - mini 等一系列产品和服务纷纷亮相。那么这一次,OpenAI 又将带来哪些惊喜呢?
事实上,各路网友已经根据各种蛛丝马迹开始猜测这一周 OpenAI 的发布内容了。不得不说,有些猜测颇具说服力,甚至还有相关证据支撑。
下面,我们先详细介绍一下“开源 DeepSeek 推理引擎的路径”,再简单盘点一下网友对 OpenAI 这周发布内容的预测。
开源 DeepSeek 推理引擎的路径
文档地址:https://github.com/deepseek-ai/open-infra-index/blob/main/OpenSourcing_DeepSeek_Inference_Engine/README.md
以下是 DeepSeek 发布文档的原文译本:
几周前,在开源周活动期间,我们开源了多个库。社区反馈十分积极,这激发了令人振奋的合作、富有成效的讨论以及宝贵的错误修复。受此激励,我们决定更进一步,将内部推理引擎回馈给开源社区。
我们由衷感激开源生态系统,倘若没有它,我们在通用人工智能(AGI)领域难以取得如今的进展。我们的训练框架依赖于 PyTorch,推理引擎基于 vLLM,这两者对加速 DeepSeek 模型的训练和部署起到了关键作用。
鉴于部署 DeepSeek - V3 和 DeepSeek - R1 等模型的需求与日俱增,我们希望能为社区贡献更多力量。当我们最初考虑将完整的内部推理引擎开源时,遇到了一些挑战:
代码库差异:我们的引擎基于 vLLM 一年多前的一个早期分支。尽管结构相似,但我们针对 DeepSeek 模型进行了大量定制化改造,因此难以直接扩展到更广泛的应用场景。
基础设施依赖:该引擎与我们的内部基础设施(包括集群管理工具)紧密关联,若不进行重大修改,无法实现公开部署。
维护精力有限:作为一个专注于开发更优质模型的小型研究团队,我们缺乏维护大型开源项目所需的精力。
考虑到这些挑战,我们决定采用一种更具可持续性的替代方案:与现有的开源项目合作。
展望未来,我们将在以下方面与现有的开源项目展开紧密合作:
提取独立功能:将可复用的组件模块化,并作为独立的软件库贡献出来。
共享优化成果:直接贡献设计改进和实现细节。
我们衷心感谢开源运动,从操作系统和编程语言到机器学习框架和推理引擎,开源精神无处不在。能够为这个蓬勃发展的生态系统贡献力量,并看到我们的模型和代码受到社区的广泛认可,我们倍感荣幸。让我们携手突破通用人工智能(AGI)的边界,确保其发展成果造福全人类。
注:需要说明的是,本文仅概述了我们开源 DeepSeek - Inference - Engine 代码库的路径。对于未来的模型发布,我们将对开源社区和硬件合作伙伴保持开放和协作的态度。我们承诺在新模型发布之前主动同步与推理(inference)相关的工程工作,目标是让社区从第一天起就能获得 SOTA 级支持。我们的最终目标是构建一个同步的生态系统,使尖端的 AI 功能能够在模型正式发布后无缝应用于各种硬件。
OpenAI 将发布什么?
了解了 DeepSeek 令人振奋的开源计划,再来看看 OpenAI 是否会给我们带来类似的惊喜。
o3、o4 - mini、GPT - 4.1 系列模型
目前,关于 OpenAI 这次发布周最可靠的消息来自 OpenAI 自身。其已在自家的 CDN(内容分发网络)上发布了一些图标,几乎明示了即将发布的一系列模型。从网友们收集到的数据来看,OpenAI 此次至少公布了 5 个图标。
从这些图标推测,OpenAI 有可能在今晚开始的发布周中发布至少 5 个模型,包括 o3 满血版与 o4 - mini 两个推理模型,以及 GPT - 4.1 系列模型(涵盖满血版、mini 以及 nano 版)。
开源模型
此外,还有人猜测 OpenAI 可能会开源一个能与 DeepSeek - R1 相媲美的开源模型,而这个模型很可能就是已经在 OpenRouter 上线且可免费使用的 Optimus Alpha。该模型支持 100 万上下文长度,网友实测其编程性能十分出色。
地址:https://openrouter.ai/openrouter/optimus-alpha
其中一个理由是,当用户让 Optimus Alpha 介绍自己时,它会自称来自 OpenAI 并且基于 GPT - 4 架构。
智能体软件工程师
OpenAI CFO Sarah Friar 近日在高盛举办的一次活动上透露,该公司正在开发一款名为 Agentic Software Engineer(A - SWE)的产品,即智能体软件工程师 / 自主式软件工程师。与编程助手(Copilot)不同,A - SWE 可以独立完成构建应用、处理拉取请求、进行质量保证、修复错误和编写文档等任务。
在此之前,OpenAI 已经发布了 Operator 和 Deep Research 这两款智能体,分别面向计算机控制和深度研究两个应用方向,而 A - SWE 显然会是一个面向编程任务的智能体。
除了以上传言,还有网友猜测 OpenAI 可能会发布一个新的图像生成模型,并且其性能可能超越因吉卜力风格生成而大火的 GPT - 4o。不过,关于此传言的确切信息并不多。
你期待在 OpenAI 这次发布周上看到什么呢?

- 标签: DeepSeek openAI
-
下篇: 智能体革命:AI的具象化演进