23 KiB
2025年4月大模型发布与发展回顾(结构化总结)
下面分两部分回答你的问题:
1)2025年4月主要大模型版本/功能发布与更新盘点
2)结合全年脉络,对这次“4月大爆发”的技术与产业意义做发展回顾与总结
一、2025年4月大模型与关键能力更新盘点
1. Meta:Llama 4 系列开源发布(4月5日)
核心信息
- 发布模型:Llama 4 Scout、Llama 4 Maverick,并预告在训巨型模型 Behemoth。[1][2]
- 架构:首次采用大规模 MoE(Mixture of Experts,混合专家) 架构:
- Scout:
- 约 170 亿激活参数
- 16 个专家,总参数约 1090 亿
- 上下文窗口高达约 1000 万 token,可处理 20+ 小时视频或上万页文本,在单块 H100(Int4 量化)上可跑[1][2][3]。
- Maverick:
- 170 亿激活参数
- 128 个专家,总参数约 4000 亿
- 多模态能力、图像理解和性价比上对标并在部分维度超越 GPT‑4o、Gemini 2.0 Flash 等。[4][5]
- Scout:
- 能力特征:
- 原生多模态:文本、图像、视频、音频统一建模,可在不同模态间转换内容。[2][5]
- 高效推理:MoE 架构按 token 选择少量专家参与计算,大幅降低推理成本。
- 上下文极限突破:Scout 1000 万 token、Maverick 100 万 token 的窗口,在长文档和代码库推理上形成压倒性优势。[1][2]
影响判断(可直接用于选型/规划)
- 对开发者:真正能在单卡 H100 上跑的“千万级上下文开源模型”,非常适合做长文档检索、海量代码分析、长程多模态记忆等系统的基础模型。
- 对国内开源阵营:抬高了“开源模型上限”,迫使其他开源阵营(包括中国)必须在 MoE + 多模态 + 超长上下文 上给出对标产品。
2. OpenAI:推理模型 o3 与 o4‑mini(4月16–17日)
核心信息
- 模型定位:
- o3:目前 OpenAI 最强推理模型,是 o1 系列升级版。[6][7]
- o4‑mini:轻量推理模型,主打高性价比与高吞吐,在某些数学基准甚至超过 o3。[6][8]
- 能力特征:
- 视觉“思维链”能力
- 首次支持在推理链中使用图像,能对白板笔记、手绘草图、图表等进行多步分析,而不是只做一次性识别。[6][9]
- 自主工具调用能力
- 在 ChatGPT 内,可以自动组合调用:网页搜索、Python、文件解析、图像生成等所有工具,单轮对话内完成完整自动工作流,被视为“把 Agent 吞进模型里”。[6][10]
- 性能数据:
- o4‑mini 在 AIME 2024 / 2025 数学竞赛中的准确率分别为 93.4% / 92.7%,超过满血版 o3,被称为“当前准确率最高的推理模型之一”。[6]
- Codeforces 编程竞赛 ELO 评分约 2700+,接近全球前 200 名人类程序员水平。[6][11]
- 成本与效率:
- 相比此前的 o1、o3‑mini,在“性能 / 成本”曲线明显更优,可根据任务设置推理“努力程度”(思考时间与算力)。[7][11]
- 视觉“思维链”能力
影响判断
- 对复杂分析任务(金融分析、科研计算、工程设计)而言,o3 更像是一位会自己查资料、写代码、看图的大助手,适合做端到端自动化代理的“大脑”。
- o4‑mini 在准确率接近 o3 前提下,成本与延迟大幅降低,是面向大规模应用部署(如 API 服务、企业内部推理服务)的现实选择。
3. 百度:文心大模型 4.5 Turbo & X1 Turbo(4月25日)
核心信息
- 发布场合:Create 2025 百度 AI 开发者大会(武汉)。[12]
- 主打三大特性:多模态、强推理、低成本。[12]
- 文心 4.5 Turbo:
- 对比文心 4.5:
- 速度更快,推理吞吐可达 8 倍。[13][14]
- 价格下降 80%:
- 输入:0.8 元 / 百万 token
- 输出:3.2 元 / 百万 token
- 约为 DeepSeek‑V3 成本的 40%。[12][15]
- 多模态与能力:
- 原生多模态,文本、图像、音视频理解与生成全面加强。[12][16]
- 去幻觉、逻辑推理、代码能力均明显增强。
- Benchmark:
- 多模态综合得分:约 77.68 分,高于 GPT‑4o 的 72.76 分,部分测评与 GPT‑4.1 持平甚至更优。[15][17]
- 对比文心 4.5:
- 文心 X1 Turbo(深度思考模型):
- 在文心 X1 基础上思维链更长、推理更深,强化多模态和工具调用能力。[12]
- 在性能提升的同时,再降价 50%,输入约 1 元 / 百万 token,输出 4 元 / 百万 token,[12] 约为 DeepSeek‑R1 成本的 25%。[15]
影响判断
- 对国内企业:文心 4.5 Turbo + X1 Turbo 基本构成了“通用多模态 + 深度推理”的国产双基座,在中文能力、多模态和成本上非常有竞争力,适合作为国内大量业务的默认选型。
- 对全球:百度把多模态能力做到对标甚至超越 GPT‑4o,同时价格只有国际闭源模型的个位数甚至百分之一,对国际市场形成明显价格冲击。
4. 阿里云:通义千问 Qwen3 混合推理系列(4月29日)
核心信息
- 发布内容:
- 开源 8 个模型:6 个 Dense + 2 个 MoE [18][19]
- Dense:0.6B / 1.7B / 4B / 8B / 14B / 32B
- MoE:Qwen3‑235B‑A22B(总参 2350 亿,激活 220 亿);Qwen3‑30B‑A3B(总参 300 亿,激活 30 亿)。[18]
- 开源 8 个模型:6 个 Dense + 2 个 MoE [18][19]
- 最关键特性:“混合推理模型”(国内首个)
- 在一个模型中无缝集成:
- 快思考模式(非思考模式):短思维链,快速响应,简单问答、聊天、轻度任务时只激活部分层与少量专家,节省算力 40% 左右。[3][20]
- 慢思考模式(思考模式):长思维链,多步推理,适合数学、代码、复杂推理,支持设置“思考预算”,如 38K tokens 的思考链长度。[3][20]
- 用户可通过 API 参数
enable_thinking或对话指令/think、/no_think来软切换。[3][21]
- 在一个模型中无缝集成:
- 性能数据:
- 旗舰模型 Qwen3‑235B‑A22B 在数学(AIME25 得分 81.5)、代码(LiveCodeBench 70+)等基准上超越 DeepSeek‑R1、Grok‑3 等顶级模型,逼近 Gemini‑2.5‑Pro。[19][22]
- 在多语言(支持 119 种语言和方言)和 Agent 能力(BFCL 70.8 分,超越 Gemini‑2.5‑Pro、o1)上处于领先。[18][19]
- 生态与部署:
- 完全开源,Apache 2.0 许可,可商用。[18]
- 强化 MCP 协议与工具调用,提供 Qwen‑Agent 框架,方便智能体开发。[18]
影响判断
- Qwen3 把 “快思考/慢思考”这个认知科学概念真正落到工程层面,在开源世界里几乎唯一实现了混合推理的通用大模型,非常适合作为“统一大脑”,根据任务难度自动分配算力。
- 对国内生态:让中小企业可以在单集群、甚至有限 GPU 条件下兼顾高效问答和高质量深度推理,极大降低了推理型应用门槛。
5. 字节跳动:Seed‑Thinking‑v1.5 推理模型(4月14–17日)
核心信息
- 模型规格:
- MoE 架构,总参数 200B,激活参数 20B。[23]
- 相比 DeepSeek‑R1(671B 总参,37B 激活),参数更小、激活更少,但在多项推理基准上逆袭。[24][25]
- 能力表现:
- 数学、编程、科学推理等专业领域表现突出,部分评测上超越 DeepSeek‑R1。[24][26]
- 单位推理成本比 DeepSeek‑R1 低 50% 左右,推理效率提升约 5 倍。[23][27]
- 技术路线:
- 采用“SFT + RLHF + 强化学习测试时计算”的两阶段/多阶段训练范式,通过构建双轨奖励体系(可验证数据 + 人类反馈)来专门优化长链推理能力。[27][28]
影响判断
- 这是中国厂商在“小于对手一半的激活参数,却能打赢推理比赛”上的一次标志性胜利,说明:
- 扩参不再是唯一方向,“参数效率 + 强化学习 + 专项数据”同样能造就顶级推理模型。
- 对业务方:Seed‑Thinking‑v1.5 适合作为数学/编程/科学推理型垂直应用(如数理教育、量化分析、科学计算)的后端推理引擎。
6. Claude:Research 深度检索功能(4月15日)
核心信息
- 功能描述:
- Claude 为旗舰模型新增 Research 模式,可在单个问题下自动发起 3–5 轮关联网络检索,构建知识图谱并形成结构化报告。[29][30]
- 与 Google Workspace 深度集成:可读取 Gmail、日历、Docs 文档,自动汇总会议纪要、识别待办事项等。[29][31]
- 性能数据:
- 在 SWE‑bench 专业编码评估中,通过 Research 功能与“思考工具”机制,将验证准确率提升至 49%,比行业基准提升 15.6 个百分点。[29][32]
影响判断
- Claude 正在把“搜索 + 多轮推理 + 企业内数据”打通,从单一对话模型升级为类知识工作自动化助手,对于知识密集型企业(咨询、律师、投行、互联网)极具价值。
7. 英伟达:GB200 NVL72 服务器大规模部署(4月中旬)
核心信息
- CoreWeave 成为首批大规模部署 GB200 NVL72 系统的云商之一,Cohere、IBM、Mistral AI 等为首批用户。[33]
- 性能:
- 相比 H100 系统整体性能提升 2–3 倍,在训练 1000 亿参数级模型时可达到 3 倍性能增益。[33]
- 意义:
- 形成“训练与推理基础设施升级 + 推理模型/多模态模型爆发”的正反馈闭环,为 10 万亿参数、长链推理模型的训练和部署提供算力基础。
影响判断
- 4 月的模型爆发(Llama 4、o3/o4‑mini、Qwen3、Seed‑Thinking)背后,本质上是 GB200 等新一代算力平台规模部署后带动的一轮模型架构与能力跃迁。
8. 综合事件回顾:政策与行业视角
根据多篇综述与 4 月事件盘点文章[34]:
- 欧盟:4 月初欧洲央行召开会议,专门讨论 AI 对经济结构、就业、货币政策的影响,试图为 AI 经济制定系统化政策框架。
- 中国:生成式 AI 备案制常态化,4 月后备案模型及应用数量持续增加,强调合规与安全。
- 行业:4 月被视作“大模型竞争转向 推理能力、多模态深度与成本效率”的重要转折点。
二、发展回顾与趋势总结:2025 年“4 月拐点”意味着什么?
结合以上发布,可以从技术、成本、生态、竞争格局四个维度做总结,并给出对产品/技术决策具可操作性的判断。
1. 技术范式:从“堆参数”到“会思考”
共同特征
-
MoE 架构全面普及
- Llama 4、Qwen3、Seed‑Thinking 都采用 MoE,将总参数拉到数百亿–数万亿,但每次只激活 5–15% 的参数,大幅降低推理成本。
- 混合专家 + 深度强化学习成为推理模型主流范式。
-
原生多模态 + 超长上下文
- Llama 4 Scout 的千万级上下文、Maverick 的百万级上下文,让“长文档 + 视频”场景第一次可以由单模型直接吃下。
- 文心 4.5 Turbo、Qwen3‑VL 等在图像、多模态检索、RAG 场景的表现明显超越 2024 年一代模型。
-
从“能答题”到“会推理”
- OpenAI o3、o4‑mini、Seed‑Thinking‑v1.5、Qwen3‑Max‑Thinking 代表了一条清晰路线:
强化学习 + 测试时计算(Test‑Time Compute)+ 思维链,去追求高可验证推理能力。 - Benchmarks 像 AIME、SWE‑bench、BFCL 成为头部厂商的“必刷榜单”。
- OpenAI o3、o4‑mini、Seed‑Thinking‑v1.5、Qwen3‑Max‑Thinking 代表了一条清晰路线:
可执行建议
- 新项目如果对复杂推理 / 数学 / 编程有强需求,应优先考虑:
- o3 / o4‑mini(闭源,国际场景)
- Seed‑Thinking、Qwen3‑Max‑Thinking(国产推理方向)
- 普通业务问答、客服、内容生成,更适合使用:
- Qwen3 的非思考模式、文心 4.5 Turbo、o4‑mini 等高效模型。
2. 成本与效率:推理进入“厘时代”后再腰斩
关键数字
- 文心 4.5 Turbo:
输入 0.8 元 / 百万 token,输出 3.2 元 / 百万 token,为 DeepSeek‑V3 成本的 40%。[12][15] - X1 Turbo:
输入 1 元 / 百万 token,输出 4 元 / 百万 token,仅为 DeepSeek‑R1 成本的 25%。[15] - Seed‑Thinking‑v1.5:单位推理成本约为 DeepSeek‑R1 的 50%。[23]
- 斯坦福 HAI 报告指出,达到 GPT‑3.5 水平的小模型推理成本两年内下降了 280 倍,部分场景最高达到 900 倍。[35]
趋势判断
- 过去一年是“从元时代到厘时代”(推理成本 >0.01 美元/1K token → 远低于 0.001),2025 年 4 月之后,又开始进入“厘以下的理性内卷”:
- 不再只是靠降价吸引用户,而是用“更智能的推理(thinking mode)+ 更便宜的快思考模式(non‑thinking)”来动态平衡体验与成本。
- 对企业来说:“算力预算不再是进入大模型应用的最大门槛”,反而是“数据、场景与工程能力”成为新的短板。
3. 生态与开源:开源模型从“追随者”变成“技术牵引者”
4 月的标志性变化
- Llama 4、Qwen3、Seed‑Thinking 等开源/开放权重模型,在多个维度已经直逼甚至超越闭源产品:
- Qwen3‑235B‑A22B 在数学与代码上对标、甚至超过 DeepSeek‑R1、Grok‑3。[18][19]
- Seed‑Thinking‑v1.5 在较少参数下击败 671B 的 DeepSeek‑R1。[24][27]
- 中国在开源大模型领域的地位显著提升,综合多份报告,2025 年起:
- 开源模型的主导权从“美国 Llama3 一家独大”转变为“中国通义千问、DeepSeek、Kimi 等形成多极竞争”。[36]
对选型的直接意义
- 对企业方:在多数中文、行业场景下,以 Qwen3、文心 4.5 Turbo、Seed‑Thinking 为代表的国产模型,已经足以满足“准确率+成本”的大部分需求。
- 对开发者:如果需要高度可控和可定制,可优先考虑 Qwen3 系列或 DeepSeek 等开源模型,进行本地化与二次训练。
4. 竞争格局:从“闭源一家独大”到“双轨竞争”
4 月之后的格局特征
- 闭源定义性能天花板
- OpenAI(o3 / o4‑mini / GPT‑4.1 / GPT‑5)、Google(Gemini 2.x / 3)、Anthropic(Claude 3.7 / 4.x)继续在极限性能、多模态生成、端到端 Agent 上领跑。
- 开源提供多元价值
- 中国与 Meta 的开源模型,在推理、多模态、长上下文与成本上给出强有力替代方案。
- 中美各具优势
- 美国:闭源+高端算力,仍掌握算法与基础设施高地(GB200、GPT‑NPU 等)。[37]
- 中国:以 DeepSeek、Qwen、文心、Kimi、豆包为代表的开源+国产算力体系(包括昇腾等)正在形成完整闭环。
对中国厂商/开发者的现实结论
- “用闭源挑性能极限,用开源打规模普惠”将是未来几年非常稳健的策略:
- 通用高端、国际化场景:可以继续用 OpenAI / Claude / Gemini 做顶层评估与对标。
- 大规模落地与成本敏感场景:优先布局 Qwen3、文心 4.5 Turbo、DeepSeek‑V3/R1、Seed‑Thinking 等国产模型。
三、给你的总结与落地建议
如果把“2025 年 4 月”视作一个节点,它的关键意义可以概括为:
-
技术层面:
- 从“更大”转向“更聪明”的推理模型:MoE + 强化学习 + 思维链成为主流。
- 多模态与超长上下文不再是论文概念,而是大规模可用的工程能力。
-
成本层面:
- 推理成本在过去两年暴跌 100–900 倍,国内厂商直接把国际竞品成本打到 1/10、1/25,AI 不再是只有巨头才能玩的游戏。
-
生态层面:
- 开源模型第一次在“能力 + 成本 +生态”上真正意义上对闭源构成系统性挑战,中国在开源 AI 上取得全球领先优势。
-
决策建议(面向使用方/产品团队):
- 需要强推理 + 工具调用 + 国际生态:优先考虑 o3 / o4‑mini + Claude Research。
- 需要中文、多模态兼顾 + 成本极低:
- 通用 + 多模态:文心 4.5 Turbo / Qwen3‑8B/14B/32B
- 深度推理:文心 X1 Turbo / Qwen3‑235B‑Thinking / Seed‑Thinking‑v1.5
- 希望完全自控、可本地部署:优先 Qwen3 系列、DeepSeek‑R1/V3、Llama 4 Scout/Maverick。
从历史视角看,2025 年 4 月之后,大模型已经从“炫技阶段”进入“系统性工程与规模落地阶段”。如果你在规划未来 1–2 年的大模型路线,现在的关键不再是“要不要用”,而是 “在闭源顶配、国产通用、开源可控这三条线之间如何组合”——而上述 4 月节点,正好给出了选型与组合的现实坐标系。
References
[1] Meta发布Llama 4大模型:AI技术的新纪元即将开启. https://www.sohu.com/a/880329869_121924584
[2] Meta公司在4月5日发布Llama 4 Scout与Llama 4 Maverick. https://so.html5.qq.com/page/real/search_news?docid=70000021_19367f1d15b97452
[3] Llama 4开源空降!1000万超长上下文. https://new.qq.com/rain/a/20250406A03DCA00
[4] Meta发布新一代旗舰AI模型Llama 4. https://new.qq.com/rain/a/20250406A01MVZ00
[5] Meta推出Llama 4——革新AI大模型的混合专家架构. https://www.sohu.com/a/880691365_121924584
[6] o4-mini发布 OpenAI史上最强、最智能模型. https://so.html5.qq.com/page/real/search_news?docid=70000021_2096800195809652
[7] 人工智能 - OpenAI 推出一对 AI 推理模型 o3 和o4-mini. https://segmentfault.com/a/1190000046455015
[8] OpenAI上线o3、o4-mini:天才级别的模型. https://www.163.com/tech/article/JTB4C5H400098IEO.html
[9] 图像思考. https://openai.com/zh-Hans-CN/index/thinking-with-images/
[10] OpenAI发布o3/o4-mini两大推理模型,要把Agent吞进模型里了. https://so.html5.qq.com/page/real/search_news?docid=70000021_5396800592725752
[11] O4-Mini: Tests, Features, O3 Comparison, Benchmarks & ... https://www.datacamp.com/blog/o4-mini
[12] 百度发布新一代文心大模型4.5 Turbo和X1 Turbo. https://so.html5.qq.com/page/real/search_news?docid=70000021_571680af01982552
[13] 文心大模型4.5 Turbo价格狂降80%. https://k.sina.com.cn/article_7453151671_1bc3e11b700101con4.html
[14] 文心大模型4.5 Turbo:价格体系、技术优势与生态重构. https://comate.baidu.com/zh/page/m5qymw3hr9v
[15] 价格最高降80%!百度发布文心大模型4.5 Turbo. https://so.html5.qq.com/page/real/search_news?docid=70000021_736680af5a790352
[16] 百度发布文心大模型4.5、文心大模型X1. https://so.html5.qq.com/page/real/search_news?docid=70000021_95867d626e081052
[17] 全面评测文心X1/4.5 Turbo!思维链升级,推理白菜价. https://zhuanlan.zhihu.com/p/1899204732075094156
[18] 阿里通义千问发布并开源Qwen3. https://so.html5.qq.com/page/real/search_news?docid=70000021_817680ff5e036852
[19] 阿里发布Qwen3 模型:思考与速度兼具的开源新标杆. https://www.oschina.net/news/347255/qwenlm-qwen3
[20] 深度解析!一起扒扒阿里 Qwen3背后的技术细节. https://www.toutiao.com/article/7499418327984144915/
[21] Qwen3:思深,行速. https://qwenlm.github.io/zh/blog/qwen3/
[22] Qwen3技术报告公开!235B模型性能居开源模型榜首. https://so.html5.qq.com/page/real/search_news?docid=70000021_4546825889b34952
[23] 字节跳动最新思考模型技术细节公开. https://finance.sina.com.cn/tob/2025-04-14/doc-inetccsv5180150.shtml
[24] 字节新推理模型逆袭DeepSeek,200B参数战胜671B. https://www.qbitai.com/2025/04/272792.html
[25] 字节豆包推理模型Seed-Thinking-v1.5要来了. https://blog.csdn.net/AI_SHELL/article/details/147504252
[26] 字节跳动最新思考模型Seed-Thinking-v1.5 技术细节公开. https://www.ithome.com/0/845/100.htm
[27] 超越 DeepSeek-R1!Seed-Thinking-v1.5. https://blog.csdn.net/wyjdc123/article/details/147351500
[28] Seed-Thinking-v1.5:通过强化学习推进卓越的推理模型. https://zhuanlan.zhihu.com/p/1893777944398263377
[29] Anthropic推出Claude研究功能 拟推语音模式功能对抗OpenAI. https://news.qq.com/rain/a/20250416A01W8000
[30] Claude Research功能上线:AI 驾驭复杂任务. https://www.ithome.com/0/845/602.htm
[31] Claude打通谷歌全家桶!Research功能上线. https://www.toutiao.com/article/7494535345732616755/
[32] Claude SWE-Bench Performance. https://www.anthropic.com/engineering/swe-bench-sonnet
[33] 全球首个!“英伟达亲儿子”CoreWeave大规模上线GB200服务器. https://so.html5.qq.com/page/real/search_news?docid=70000021_76367ff082d83752
[34] 2025年4月人工智能大模型领域重大事件盘点. https://blog.csdn.net/yuntongliangda/article/details/147634095
[35] 2025年斯坦福HAI报告:大模型使用成本暴降900倍. https://www.sohu.com/a/882321642_121956424
[36] 中国领跑开源AI:2025大模型发展新格局. https://finance.sina.com.cn/roll/2025-12-16/doc-inhaxvcr3477970.shtml
[37] 2025年4月AI科技领域周报(4.21-4.27). https://blog.csdn.net/dhhdane/article/details/147637050