343 lines
19 KiB
Markdown
343 lines
19 KiB
Markdown
下面是基于你给出的搜索结果与内容整理出的**「2025年6月大模型版本发布更新 + 当月发展回顾」**,只依赖我们已经看到的公开信息。
|
||
|
||
---
|
||
|
||
# 一、2025年6月:主要大模型版本发布与更新
|
||
|
||
## 1. 百度:文心大模型 4.5 系列正式开源
|
||
|
||
**关键时间点**
|
||
|
||
- 3月16日:发布文心大模型 4.5 与深度思考模型 X1,并在文心一言官网免费开放使用。[1]
|
||
- 6月30日:按此前预告,**文心大模型 4.5 系列正式开源**。[2][3][4]
|
||
|
||
**版本与规格要点**
|
||
|
||
- **开源范围**:共 10 款模型,全部开放预训练权重与推理代码,使用 Apache 2.0 许可。[5]
|
||
- **架构与规模**:
|
||
- 混合专家(MoE)模型:
|
||
- 代表型号如 ERNIE-4.5-300B-A47B-Base:总参数 300B,激活专家 47B。
|
||
- 还有 3B 激活参数 MoE 版本。
|
||
- 稠密模型:
|
||
- 0.3B 稠密参数模型,用于轻量化场景。
|
||
- 多模态模型:
|
||
- ERNIE-4.5-VL-424B-A47B(多模态大模型,424B 总参数);
|
||
- ERNIE-4.5-VL-28B-A3B(28B 多模态模型)等。[5]
|
||
- **性能特点**(来自官方技术报告摘要)[5]:
|
||
- 文本任务:在 28 项基准中有 22 项超越 DeepSeek-V3-671B-A37B-Base。
|
||
- 多模态任务:4.5-VL 系列在多模态评测中达到同级 SOTA,28B 轻量多模态模型可与或优于 Qwen2.5-VL-32B。
|
||
- 支持“思考模式 / 非思考模式”,在推理任务中思考模式优势明显。
|
||
|
||
**技术与生态**
|
||
|
||
- 使用飞桨(PaddlePaddle)训练与部署,实现**「框架 + 模型」双层开源**。[1][5]
|
||
- 提供完整工具链:
|
||
- ERNIEKit:支持预训练、SFT、DPO/UPO、量化训练等。
|
||
- FastDeploy:多硬件部署、低比特量化推理、上下文缓存、投机解码等。[5]
|
||
- 下载与使用:
|
||
- 飞桨星河社区、HuggingFace、GitCode、百度智能云千帆平台均已上线。[1][2]
|
||
|
||
**行业意义**
|
||
|
||
- 从曾经公开称“开源是智商税”到全系 4.5 开源,百度完成路线切换,标志着国内头部开始**用最强模型参与开源竞赛**,对国内生态和开发者极具象征意义。[6]
|
||
|
||
---
|
||
|
||
## 2. 华为:盘古大模型 5.5 + 新一代昇腾 AI 云服务
|
||
|
||
**关键时间点**
|
||
|
||
- 6月20日:华为开发者大会 HDC 2025,在东莞发布**盘古大模型 5.5**,并宣布基于 CloudMatrix 384 超节点的新一代昇腾 AI 云服务上线。[7]
|
||
|
||
**算力与基础设施**
|
||
|
||
- **CloudMatrix 384 超节点**[7]:
|
||
- 384 颗昇腾 NPU + 192 颗鲲鹏 CPU,经 MatrixLink 高速网络全对等互联。
|
||
- 单卡推理吞吐:**2300 Tokens/s**,比非超节点提升近 4 倍。
|
||
- 支持“一卡一专家”,单超节点可支持 **384 个专家并行推理**,非常适配 MoE 大模型。
|
||
- 可将 432 个超节点级联为最高 16 万卡集群,支撑万亿/十万亿参数级训练。
|
||
|
||
**盘古 5.5:五大基础模型升级**
|
||
|
||
1. **NLP 深度思考模型**
|
||
|
||
- 准万亿级:718B 参数,256 专家 MoE。[7]
|
||
- 提出“快慢思考合一”的自适应机制,对简单问题快速回答,对复杂问题拉长思考链,提高准确性和效率。
|
||
- 知识推理、工具调用、数学等方面显著增强。
|
||
2. **多模态 + 世界模型**
|
||
|
||
- 基于盘古多模态大模型构建**世界模型**:
|
||
- 用于智能驾驶、具身智能机器人,构建可探索的数字物理空间。
|
||
- 汽车企业可在数分钟内从 2D 视频恢复复杂 3D 场景,支撑端到端模型“**两天一个版本**”迭代。[7]
|
||
3. **预测大模型**
|
||
|
||
- Triplet Transformer 统一预训练架构,把表格、时间序列、图像统一编码成“数据三元组”,实现跨行业泛化预测。[7]
|
||
- 已在钢铁高炉、铝业电解槽、水泥熟料强度、城市能源预测等多行业应用。
|
||
4. **科学计算大模型**
|
||
|
||
- 应用于气象(深圳“智霁”、重庆“天资·12h”)、新能源发电量预测等场景,提高中短期预测精度和调度效率。[7]
|
||
5. **CV 视觉大模型**
|
||
|
||
- 约 30B 参数的 MoE 视觉模型,支持图像、红外、点云、光谱、雷达等多模态感知。
|
||
- 辅助构建工业领域稀缺故障样本库,提升缺陷识别效率与准确率。[7]
|
||
|
||
**行业落地**
|
||
|
||
- 盘古已在 **30+ 行业、500+ 场景**落地,包括政务、医疗、金融、制造、交通、煤矿、气象等。[7]
|
||
|
||
---
|
||
|
||
## 3. Google:Gemini 2.5 Pro/Flash 正式版与视频分析功能
|
||
|
||
**关键时间点**
|
||
|
||
- 6月5日:Gemini 2.5 Pro 预览版更新到 06-05 版本,性能在多个在线榜单上提升。[8]
|
||
- 6月17–18日:**Gemini 2.5 Pro & Flash** 从预览转为稳定版,全面开放给开发者和用户;推出**Gemini 2.5 Flash-Lite** 轻量模型。[9]
|
||
|
||
**Gemini 2.5 Pro 技术规格(Vertex AI 文档)**[10]
|
||
|
||
- 模型 ID:`gemini-2.5-pro`
|
||
- 发布阶段:GA(正式版)
|
||
- **发布日期:2025-06-17**,停用日期:2026-06-17。
|
||
- 知识截止:2025-01。
|
||
- 支持输入:文本、代码、图像、音频、视频;输出为文本。
|
||
- 上下文长度:
|
||
- 最大输入:1,048,576 tokens(约百万级上下文)
|
||
- 最大输出:65,535 tokens
|
||
- 支持能力:
|
||
- 工具 / 函数调用、结构化输出、思考(Thinking)、隐式/显式上下文缓存、RAG Engine、Google Search Grounding 等。
|
||
|
||
**2.5 Flash & Flash-Lite 与应用功能**
|
||
|
||
- 2.5 Flash:偏重高效推理和低成本,在代码、科学计算、多模态分析任务中优于前代。[9]
|
||
- 2.5 Flash-Lite:更廉价、速度更快,适合大规模分类、总结等高吞吐任务。[4][9]
|
||
- **视频上传与分析**(6月中旬在安卓和网页端上线)[4][9]:
|
||
- 用户可直接上传视频,Gemini 自动:
|
||
- 概述视频内容
|
||
- 查找特定片段/物体
|
||
- 输出中会标注相关视频片段,便于快速定位。
|
||
|
||
---
|
||
|
||
## 4. OpenAI:o3/o4-mini 推理大模型持续开放
|
||
|
||
**关键进展**
|
||
|
||
- 官方页面对 **OpenAI o3 与 o4-mini** 做了系统介绍,2025年6月10日更新说明 `o3-pro` 已面向 ChatGPT Pro 和 API 完全开放。[11]
|
||
|
||
**o3:高端推理模型**
|
||
|
||
- 强项:编码、数学、科学、复杂视觉分析与综合推理。[11]
|
||
- 能在 Codeforces、SWE-bench、MMMU 等多个基准上创下新高,对高难任务的大错误率较 o1 降低约 20%。
|
||
- 支持“图像思维”(Thinking with Images):可把图像直接纳入思维链进行推理。
|
||
|
||
**o4-mini:高效推理模型**
|
||
|
||
- 比较:比前代 o3-mini 更强,在数学、代码、视觉等任务中表现接近甚至超越较大模型。[11]
|
||
- AIME 2025(启用 Python 解释器):
|
||
- pass@1:99.5%
|
||
- consensus@8:100%
|
||
- 面向高吞吐、低成本的推理场景,是“廉价但强”的 reasoning 主力。
|
||
|
||
**共同特性**
|
||
|
||
- 可访问 ChatGPT 的全部内部工具与用户自定义工具。
|
||
- 支持自动工具调用、多轮复杂任务拆解与执行。
|
||
- 安全上引入了更强的拒绝能力和系统级监控,用于防止生物风险、恶意代码等输出。[11]
|
||
|
||
---
|
||
|
||
## 5. 字节跳动:豆包大模型 1.6 与 Seedance 1.0 Pro
|
||
|
||
**关键时间点**
|
||
|
||
- 6月11日:火山引擎 Force 原动力大会发布**豆包大模型 1.6** 与视频模型 Seedance 1.0 Pro。[12]
|
||
|
||
**豆包 1.6:能力与产品形态**
|
||
|
||
- 多模态理解 + 图形界面操作:
|
||
- 演示:自动操作浏览器完成订酒店;识别购物小票并整理为 Excel 等。[12]
|
||
- 已在电商识图、自动驾驶数据标注、门店巡检等场景广泛应用。
|
||
- 深度思考版本(1.6-thinking)在复杂推理、竞赛级数学、多轮对话、指令遵循等权威测试中进入全球前列。[12]
|
||
|
||
**价格与商业模式**
|
||
|
||
- 首创**按输入长度区间定价**:把基础语言、深度思考、多模态能力统一到一套价格体系。[12]
|
||
- 成本:综合成本仅为豆包 1.5 深度思考模型或 DeepSeek R1 的三分之一左右。
|
||
- 示例:0–32K 输入区间,输入 0.8 元 / 百万 tokens,输出 8 元 / 百万 tokens(企业场景)。
|
||
|
||
**市场与生态**
|
||
|
||
- 日均 tokens 使用量:2025 年 5 月已达 **16.4 万亿**,较初期增长 137 倍。[13]
|
||
- 市场份额:IDC 数据表明,豆包在中国公有云大模型 API 市场占 **46.4%**,位居第一,阿里 27%、百度 17%。[13]
|
||
- 内部应用:已在字节内部 AI 编程工具 TRAE 中深度使用,80%+ 工程师在用,月活超 100 万。[12]
|
||
|
||
**Seedance 1.0 Pro**
|
||
|
||
- 文生视频 / 图生视频模型,1080P 高质量视频:
|
||
- 成本:每千 tokens 0.015 元,5 秒 1080P 视频成本约 3.67 元,行业最低之一。[12]
|
||
- 在某些榜单上(如 Artificial Analysis)文生视频和图生视频任务均位居第一,超越 Google Veo 3、可灵 2.0、OpenAI Sora 等闭源对手(报道中总结)。[12]
|
||
|
||
---
|
||
|
||
## 6. DeepSeek:R1-0528 小版本升级
|
||
|
||
**关键时间点**
|
||
|
||
- 5月28日完成试升级,6月上旬媒体集中报道 **DeepSeek-R1-0528**。[14]
|
||
|
||
**技术变化**
|
||
|
||
- 基座仍为 2024 年 12 月的 DeepSeek V3 Base 模型,但“砸了更多算力”提升深度思考能力。[14]
|
||
- 主要增强点:
|
||
- 更复杂、细致的思维链(平均每题 tokens 从 12K 提升到 23K 级别,用于 AIME 一类难题)。[14]
|
||
- 中文环境幻觉率下降 45–50%,对中文语境更友好。
|
||
- 在物理世界推理场景中,一次性输出 700+ 行代码,细节对比中优于 Claude 4 Sonnet。[14]
|
||
|
||
**性能指标**
|
||
|
||
- AIME 2025:
|
||
- 旧版 R1:准确率约 70%
|
||
- R1-0528:提升到 **87.5%**。[14]
|
||
- LiveCodeBench 等编程基准:成绩接近 o3-mini-high、o4-mini 中档水平,并在部分场景优于 Gemini 2.5 Flash。[14]
|
||
- 数学和编码能力显著提升,被认为是少数能稳定正确回答某些“数字陷阱题”的模型之一。
|
||
|
||
---
|
||
|
||
## 7. 阿里云通义:Qwen3 系列升级与 Qwen VLo 多模态模型
|
||
|
||
**6 月相关动作**
|
||
|
||
1. **通义千问-Plus/Turbo 升级为 Qwen3 系列**(Model Studio 通知)[15]
|
||
|
||
- 时间:计划于 2025-06-30 00:00 (UTC+8) 生效。
|
||
- 升级内容:
|
||
- Plus / Turbo 主干模型升级为 **Qwen3 系列**,引入“思考模式 + 非思考模式”融合,可在对话中切换。
|
||
- enable_thinking 参数控制是否开启“思考模式”,开启后只支持流式输出。
|
||
- 能力:
|
||
- Plus:推理能力显著超过 QwQ,通用能力显著超过 Qwen2.5-Plus。
|
||
- Turbo:在更小参数下推理能力比肩 QwQ-32B,通用能力超过 Qwen2.5-Turbo,同规模 SOTA。
|
||
2. **Qwen VLo 多模态统一模型发布**[16]
|
||
|
||
- 时间:6月29日。
|
||
- 能力:
|
||
- “统一理解 + 生成”多模态模型,可以“看懂”图像、再创造,支持多语言指令与开放编辑。
|
||
- 动态分辨率训练 / 生成,输入输出均能处理任意分辨率、任意长宽比图像。
|
||
- 支持渐进式生成,边生成边自我调整,适合控制长段文字对应的图像细节。
|
||
- 场景示例:更换汽车照片颜色时,能保留车型细节,仅改变颜色风格,保持真实感。
|
||
|
||
---
|
||
|
||
## 8. Meta:V-JEPA 2 世界模型
|
||
|
||
**关键时间点**
|
||
|
||
- 6月11日:Meta 发布 **V-JEPA 2**,称其在物理世界视觉理解和预测上达到“最先进水平”,并配套 3 个新基准用于评估“从视频推断物理世界”的能力。[17]
|
||
|
||
**定位**
|
||
|
||
- 这是面向“物理世界推理”的视频世界模型,用于增强 AI 代理对三维环境与物体运动的理解能力。
|
||
|
||
---
|
||
|
||
# 二、2025年6月:大模型发展态势与阶段性回顾
|
||
|
||
结合上面这些动作,可以总结出 2025 年 6 月在大模型领域的几个关键趋势:
|
||
|
||
## 1. 开源与闭源的“正面碰撞”
|
||
|
||
- **国内厂商大举开源**:
|
||
- 百度直接开源文心 4.5 全套 10 模型,权重 + 代码 + 框架完整开放,[2][5] 把自家旗舰拉进开源战场。
|
||
- 华为在 6 月底前后也首次开源盘古 7B 稠密模型与 72B MoE 模型(你给的搜索结果中有相关新闻),结合昇腾推理技术,强化国产自主生态。
|
||
- **OpenAI 继续闭源,但强化 API 能力**:
|
||
- 以 o3 / o4-mini 这种 reasoning 模型形态,通过更强推理和工具调用,稳住高端商业市场。
|
||
- **结果**:
|
||
2025 年中期形成“**中国以开源 + 低价 + 行业落地**对冲**美国闭源高端旗舰**”的格局,中国开源模型(DeepSeek、Qwen、文心 4.5 等)在全球开发者圈快速扩散。
|
||
|
||
## 2. “推理能力”成为主战场
|
||
|
||
- OpenAI 的 o 系列、DeepSeek-R1-0528、盘古 5.5 深度思考模型、Qwen3 思考模式、豆包 1.6-thinking,本质上都在回答同一个问题:
|
||
**如何让模型像一个会“认真思考”的助手,而不是只做表面补全?**
|
||
- 典型趋势:
|
||
- 延长思维链(更多 tokens 用于“想”而不是直接输出)。
|
||
- 快思 + 慢思自适应(盘古 5.5、o3、部分国产模型都在做类似探索)。
|
||
- 与工具、搜索引擎、代码执行环境的深度耦合,变成可验证、可分解的推理过程。
|
||
|
||
## 3. 多模态与“世界模型”加速演化
|
||
|
||
- 各家都将文本 + 图像 + 视频纳入统一框架:
|
||
- 文心 4.5-VL 系列、Gemini 2.5 Pro/Flash,多模态推理能力显著增强。
|
||
- 阿里的 Qwen VLo、华为盘古世界模型、Meta V-JEPA 2,直接指向“**理解物理世界**”的世界模型路线。
|
||
- 这意味着:
|
||
- 大模型正从“聊天/写文案”走向“驱动机器人、自动驾驶、数字孪生、具身智能”的基础组件。
|
||
|
||
## 4. 价格战与商业模式创新
|
||
|
||
- 字节豆包推出**输入长度区间定价**,大幅降价,把深度思考、多模态与基础语言统一价格体系,进一步压低企业使用门槛。[12]
|
||
- 百度文心 4.5 与 X1 的 API 定价被设计为对标并显著低于海外竞品 GPT-4.5 / R1 系列,[1] 开源又进一步拉低总拥有成本。
|
||
- 竞争重心从“谁的模型绝对最强”转向“**谁在单位成本内提供的可用能力最高**”。
|
||
|
||
## 5. 行业落地:从“试点”到“规模化”
|
||
|
||
- 华为盘古 5.5 报告中强调已经在 **30+ 行业、500+ 场景**落地。[7]
|
||
- 豆包的日调用量达到 16.4 万亿 tokens,已经是**大规模生产级使用**而非试验阶段。[13]
|
||
- 气象、能源、制造、金融、医疗等垂直领域的大模型应用案例被反复提及,说明大模型正在成为各行业数字化改造的新基础设施。
|
||
|
||
---
|
||
|
||
# 三、你可以怎么“利用”这波 6 月升级?
|
||
|
||
从开发者 / 企业决策的角度,2025 年 6 月之后可以有几个实际动作:
|
||
|
||
1. **选一到两个开源旗舰做“私有化基座”**
|
||
|
||
- 文心 4.5 系列、DeepSeek、Qwen3 都已经打开了高性能 + 开源的组合,[5][14][15]
|
||
- 可以按场景选择:
|
||
- 需要强中文 + 多模态:文心 4.5 / Qwen VLo
|
||
- 需要极致推理 + 代码能力:DeepSeek R1/V3、盘古深度思考 + 昇腾方案
|
||
2. **把“推理模型”单独当一个能力层来规划**
|
||
|
||
- 对复杂决策、数据分析、代码生成、自动化运营任务,可优先考虑接入 o3 / o4-mini、DeepSeek-R1-0528、豆包 1.6-thinking、盘古 5.5 NLP 深度思考模型等,而不是只用通用 Chat 类模型。
|
||
3. **多模态与世界模型:从现在就开始小规模试验**
|
||
|
||
- 有视觉/视频需求的场景(制造质检、零售巡检、城市感知、智能驾驶模拟等),可以尽早评估:
|
||
- 文心 4.5-VL
|
||
- Gemini 2.5 Pro/Flash + 视频分析
|
||
- Qwen VLo
|
||
- 盘古世界模型
|
||
- Meta V-JEPA 2 相关能力
|
||
- 这类模型会直接影响 1–3 年后的产品差异化。
|
||
4. **成本结构重算**
|
||
|
||
- 今年 6 月的多轮降价与开源,意味着你过去一年基于 GPT-4 级别封闭模型得出的“使用成本假设”已经过时。
|
||
- 重新对比:
|
||
- 海外:OpenAI o 系列 + GPT-4.1 / 4o
|
||
- 国内:豆包 1.6 + 文心 4.5/X1 + 通义 Qwen3 + DeepSeek R1/V3
|
||
- 可以规划“高端闭源 + 开源自建 + 国内商用 API”的混合架构,以成本和合规为约束重新组合。
|
||
|
||
---
|
||
|
||
**一句话总结:**
|
||
2025 年 6 月,是大模型从“炫技术”走向“拼推理、多模态、成本和落地”的分水岭。百度、华为、阿里、字节、DeepSeek 等国内厂商集中在这个月打出开源、降价和行业化组合拳,配合 OpenAI o 系列与 Google Gemini 2.5 的迭代,全球大模型竞争迈入“推理 + 多模态 + Agent + 产业落地”的新阶段。
|
||
|
||
---
|
||
|
||
### References
|
||
|
||
[1] 百度正式发布文心大模型4.5、文心大模型X1. [https://new.qq.com/rain/a/20250317A04W3C00](https://new.qq.com/rain/a/20250317A04W3C00)
|
||
[2] 百度文心大模型4.5系列正式开源. [http://www.news.cn/tech/20250630/bfd45156547e43e69b6460f70c90f443/c.html](http://www.news.cn/tech/20250630/bfd45156547e43e69b6460f70c90f443/c.html)
|
||
[3] 文心大模型4.5系列正式开源,涵盖10款模型. [https://www.infoq.cn/news/IjqGOCRdsA9tmgHyuh8m](https://www.infoq.cn/news/IjqGOCRdsA9tmgHyuh8m)
|
||
[4] 谷歌 Gemini 新增视频上传与分析功能. [https://so.html5.qq.com/page/real/search_news?docid=70000021_33768524ec192052](https://so.html5.qq.com/page/real/search_news?docid=70000021_33768524ec192052)
|
||
[5] ERNIE 4.5 模型系列正式开源. [https://ernie.baidu.com/blog/zh/posts/ernie4.5/](https://ernie.baidu.com/blog/zh/posts/ernie4.5/)
|
||
[6] 百度大模型开源,折射AI产业竞争逻辑转变. [https://www.yicai.com/news/102473029.html](https://www.yicai.com/news/102473029.html)
|
||
[7] 华为云发布盘古大模型5.5,宣布新一代昇腾AI云服务上线. [https://www.huaweicloud.com/intl/zh-cn/news/20250620101057482.html](https://www.huaweicloud.com/intl/zh-cn/news/20250620101057482.html)
|
||
[8] 谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本. [https://www.ithome.com/0/858/681.htm](https://www.ithome.com/0/858/681.htm)
|
||
[9] 谷歌 Gemini 2.5 Flash-Lite、2.5 Pro 稳定版发布相关报道. 多源综合,核心信息见 IT之家与 The Paper 整合报道。
|
||
[10] Gemini 2.5 Pro | Generative AI on Vertex AI. [https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=zh-cn](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=zh-cn)
|
||
[11] 隆重推出OpenAI o3 和o4-mini. [https://openai.com/zh-Hans-CN/index/introducing-o3-and-o4-mini/](https://openai.com/zh-Hans-CN/index/introducing-o3-and-o4-mini/)
|
||
[12] 字节跳动 Force 原动力大会:豆包大模型1.6与Seedance 1.0 Pro 发布. [https://so.html5.qq.com/page/real/search_news?docid=70000021_097684f9b3858452](https://so.html5.qq.com/page/real/search_news?docid=70000021_097684f9b3858452)
|
||
[13] 2025人工智能大事件回顾丨中国AI大模型篇(豆包市场份额数据). [https://hub.baai.ac.cn/view/51710](https://hub.baai.ac.cn/view/51710)
|
||
[14] DeepSeek-R1 再进化!0528 版本更新报道. [https://news.qq.com/rain/a/20250604A03N4V00](https://news.qq.com/rain/a/20250604A03N4V00)
|
||
[15] 【Model Studio】通义千问-Plus/Turbo 模型更新通知. [https://www.alibabacloud.com/zh/notice/model_studio_update_of_qwenplusturbo_4f8](https://www.alibabacloud.com/zh/notice/model_studio_update_of_qwenplusturbo_4f8)
|
||
[16] 通义千问发布全新多模态统一理解与生成模型 Qwen VLo. [https://new.qq.com/rain/a/20250629A05Q8V00](https://new.qq.com/rain/a/20250629A05Q8V00)
|
||
[17] Meta推出新模型V-JEPA 2. [https://so.html5.qq.com/page/real/search_news?docid=70000021_7806849980e84452](https://so.html5.qq.com/page/real/search_news?docid=70000021_7806849980e84452) |