ai-doc/2025年ai总结/6月.md

343 lines
19 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

下面是基于你给出的搜索结果与内容整理出的**「2025年6月大模型版本发布更新 + 当月发展回顾」**,只依赖我们已经看到的公开信息。
---
# 一、2025年6月主要大模型版本发布与更新
## 1. 百度:文心大模型 4.5 系列正式开源
**关键时间点**
- 3月16日发布文心大模型 4.5 与深度思考模型 X1并在文心一言官网免费开放使用。[1]
- 6月30日按此前预告**文心大模型 4.5 系列正式开源**。[2][3][4]
**版本与规格要点**
- **开源范围**:共 10 款模型,全部开放预训练权重与推理代码,使用 Apache 2.0 许可。[5]
- **架构与规模**
- 混合专家MoE模型
- 代表型号如 ERNIE-4.5-300B-A47B-Base总参数 300B激活专家 47B。
- 还有 3B 激活参数 MoE 版本。
- 稠密模型:
- 0.3B 稠密参数模型,用于轻量化场景。
- 多模态模型:
- ERNIE-4.5-VL-424B-A47B多模态大模型424B 总参数);
- ERNIE-4.5-VL-28B-A3B28B 多模态模型)等。[5]
- **性能特点**(来自官方技术报告摘要)[5]
- 文本任务:在 28 项基准中有 22 项超越 DeepSeek-V3-671B-A37B-Base。
- 多模态任务4.5-VL 系列在多模态评测中达到同级 SOTA28B 轻量多模态模型可与或优于 Qwen2.5-VL-32B。
- 支持“思考模式 / 非思考模式”,在推理任务中思考模式优势明显。
**技术与生态**
- 使用飞桨PaddlePaddle训练与部署实现**「框架 + 模型」双层开源**。[1][5]
- 提供完整工具链:
- ERNIEKit支持预训练、SFT、DPO/UPO、量化训练等。
- FastDeploy多硬件部署、低比特量化推理、上下文缓存、投机解码等。[5]
- 下载与使用:
- 飞桨星河社区、HuggingFace、GitCode、百度智能云千帆平台均已上线。[1][2]
**行业意义**
- 从曾经公开称“开源是智商税”到全系 4.5 开源,百度完成路线切换,标志着国内头部开始**用最强模型参与开源竞赛**,对国内生态和开发者极具象征意义。[6]
---
## 2. 华为:盘古大模型 5.5 + 新一代昇腾 AI 云服务
**关键时间点**
- 6月20日华为开发者大会 HDC 2025在东莞发布**盘古大模型 5.5**,并宣布基于 CloudMatrix 384 超节点的新一代昇腾 AI 云服务上线。[7]
**算力与基础设施**
- **CloudMatrix 384 超节点**[7]
- 384 颗昇腾 NPU + 192 颗鲲鹏 CPU经 MatrixLink 高速网络全对等互联。
- 单卡推理吞吐:**2300 Tokens/s**,比非超节点提升近 4 倍。
- 支持“一卡一专家”,单超节点可支持 **384 个专家并行推理**,非常适配 MoE 大模型。
- 可将 432 个超节点级联为最高 16 万卡集群,支撑万亿/十万亿参数级训练。
**盘古 5.5:五大基础模型升级**
1. **NLP 深度思考模型**
- 准万亿级718B 参数256 专家 MoE。[7]
- 提出“快慢思考合一”的自适应机制,对简单问题快速回答,对复杂问题拉长思考链,提高准确性和效率。
- 知识推理、工具调用、数学等方面显著增强。
2. **多模态 + 世界模型**
- 基于盘古多模态大模型构建**世界模型**
- 用于智能驾驶、具身智能机器人,构建可探索的数字物理空间。
- 汽车企业可在数分钟内从 2D 视频恢复复杂 3D 场景,支撑端到端模型“**两天一个版本**”迭代。[7]
3. **预测大模型**
- Triplet Transformer 统一预训练架构,把表格、时间序列、图像统一编码成“数据三元组”,实现跨行业泛化预测。[7]
- 已在钢铁高炉、铝业电解槽、水泥熟料强度、城市能源预测等多行业应用。
4. **科学计算大模型**
- 应用于气象深圳“智霁”、重庆“天资·12h”、新能源发电量预测等场景提高中短期预测精度和调度效率。[7]
5. **CV 视觉大模型**
- 约 30B 参数的 MoE 视觉模型,支持图像、红外、点云、光谱、雷达等多模态感知。
- 辅助构建工业领域稀缺故障样本库,提升缺陷识别效率与准确率。[7]
**行业落地**
- 盘古已在 **30+ 行业、500+ 场景**落地,包括政务、医疗、金融、制造、交通、煤矿、气象等。[7]
---
## 3. GoogleGemini 2.5 Pro/Flash 正式版与视频分析功能
**关键时间点**
- 6月5日Gemini 2.5 Pro 预览版更新到 06-05 版本,性能在多个在线榜单上提升。[8]
- 6月1718日**Gemini 2.5 Pro & Flash** 从预览转为稳定版,全面开放给开发者和用户;推出**Gemini 2.5 Flash-Lite** 轻量模型。[9]
**Gemini 2.5 Pro 技术规格Vertex AI 文档)**[10]
- 模型 ID`gemini-2.5-pro`
- 发布阶段GA正式版
- **发布日期2025-06-17**停用日期2026-06-17。
- 知识截止2025-01。
- 支持输入:文本、代码、图像、音频、视频;输出为文本。
- 上下文长度:
- 最大输入1,048,576 tokens约百万级上下文
- 最大输出65,535 tokens
- 支持能力:
- 工具 / 函数调用、结构化输出、思考Thinking、隐式/显式上下文缓存、RAG Engine、Google Search Grounding 等。
**2.5 Flash & Flash-Lite 与应用功能**
- 2.5 Flash偏重高效推理和低成本在代码、科学计算、多模态分析任务中优于前代。[9]
- 2.5 Flash-Lite更廉价、速度更快适合大规模分类、总结等高吞吐任务。[4][9]
- **视频上传与分析**6月中旬在安卓和网页端上线[4][9]
- 用户可直接上传视频Gemini 自动:
- 概述视频内容
- 查找特定片段/物体
- 输出中会标注相关视频片段,便于快速定位。
---
## 4. OpenAIo3/o4-mini 推理大模型持续开放
**关键进展**
- 官方页面对 **OpenAI o3 与 o4-mini** 做了系统介绍2025年6月10日更新说明 `o3-pro` 已面向 ChatGPT Pro 和 API 完全开放。[11]
**o3高端推理模型**
- 强项:编码、数学、科学、复杂视觉分析与综合推理。[11]
- 能在 Codeforces、SWE-bench、MMMU 等多个基准上创下新高,对高难任务的大错误率较 o1 降低约 20%。
- 支持“图像思维”Thinking with Images可把图像直接纳入思维链进行推理。
**o4-mini高效推理模型**
- 比较:比前代 o3-mini 更强,在数学、代码、视觉等任务中表现接近甚至超越较大模型。[11]
- AIME 2025启用 Python 解释器):
- pass@199.5%
- consensus@8100%
- 面向高吞吐、低成本的推理场景,是“廉价但强”的 reasoning 主力。
**共同特性**
- 可访问 ChatGPT 的全部内部工具与用户自定义工具。
- 支持自动工具调用、多轮复杂任务拆解与执行。
- 安全上引入了更强的拒绝能力和系统级监控,用于防止生物风险、恶意代码等输出。[11]
---
## 5. 字节跳动:豆包大模型 1.6 与 Seedance 1.0 Pro
**关键时间点**
- 6月11日火山引擎 Force 原动力大会发布**豆包大模型 1.6** 与视频模型 Seedance 1.0 Pro。[12]
**豆包 1.6:能力与产品形态**
- 多模态理解 + 图形界面操作:
- 演示:自动操作浏览器完成订酒店;识别购物小票并整理为 Excel 等。[12]
- 已在电商识图、自动驾驶数据标注、门店巡检等场景广泛应用。
- 深度思考版本1.6-thinking在复杂推理、竞赛级数学、多轮对话、指令遵循等权威测试中进入全球前列。[12]
**价格与商业模式**
- 首创**按输入长度区间定价**:把基础语言、深度思考、多模态能力统一到一套价格体系。[12]
- 成本:综合成本仅为豆包 1.5 深度思考模型或 DeepSeek R1 的三分之一左右。
- 示例032K 输入区间,输入 0.8 元 / 百万 tokens输出 8 元 / 百万 tokens企业场景
**市场与生态**
- 日均 tokens 使用量2025 年 5 月已达 **16.4 万亿**,较初期增长 137 倍。[13]
- 市场份额IDC 数据表明,豆包在中国公有云大模型 API 市场占 **46.4%**,位居第一,阿里 27%、百度 17%。[13]
- 内部应用:已在字节内部 AI 编程工具 TRAE 中深度使用80%+ 工程师在用,月活超 100 万。[12]
**Seedance 1.0 Pro**
- 文生视频 / 图生视频模型1080P 高质量视频:
- 成本:每千 tokens 0.015 元5 秒 1080P 视频成本约 3.67 元,行业最低之一。[12]
- 在某些榜单上(如 Artificial Analysis文生视频和图生视频任务均位居第一超越 Google Veo 3、可灵 2.0、OpenAI Sora 等闭源对手(报道中总结)。[12]
---
## 6. DeepSeekR1-0528 小版本升级
**关键时间点**
- 5月28日完成试升级6月上旬媒体集中报道 **DeepSeek-R1-0528**。[14]
**技术变化**
- 基座仍为 2024 年 12 月的 DeepSeek V3 Base 模型,但“砸了更多算力”提升深度思考能力。[14]
- 主要增强点:
- 更复杂、细致的思维链(平均每题 tokens 从 12K 提升到 23K 级别,用于 AIME 一类难题)。[14]
- 中文环境幻觉率下降 4550%,对中文语境更友好。
- 在物理世界推理场景中,一次性输出 700+ 行代码,细节对比中优于 Claude 4 Sonnet。[14]
**性能指标**
- AIME 2025
- 旧版 R1准确率约 70%
- R1-0528提升到 **87.5%**。[14]
- LiveCodeBench 等编程基准:成绩接近 o3-mini-high、o4-mini 中档水平,并在部分场景优于 Gemini 2.5 Flash。[14]
- 数学和编码能力显著提升,被认为是少数能稳定正确回答某些“数字陷阱题”的模型之一。
---
## 7. 阿里云通义Qwen3 系列升级与 Qwen VLo 多模态模型
**6 月相关动作**
1. **通义千问-Plus/Turbo 升级为 Qwen3 系列**Model Studio 通知)[15]
- 时间:计划于 2025-06-30 00:00 (UTC+8) 生效。
- 升级内容:
- Plus / Turbo 主干模型升级为 **Qwen3 系列**,引入“思考模式 + 非思考模式”融合,可在对话中切换。
- enable_thinking 参数控制是否开启“思考模式”,开启后只支持流式输出。
- 能力:
- Plus推理能力显著超过 QwQ通用能力显著超过 Qwen2.5-Plus。
- Turbo在更小参数下推理能力比肩 QwQ-32B通用能力超过 Qwen2.5-Turbo同规模 SOTA。
2. **Qwen VLo 多模态统一模型发布**[16]
- 时间6月29日。
- 能力:
- “统一理解 + 生成”多模态模型,可以“看懂”图像、再创造,支持多语言指令与开放编辑。
- 动态分辨率训练 / 生成,输入输出均能处理任意分辨率、任意长宽比图像。
- 支持渐进式生成,边生成边自我调整,适合控制长段文字对应的图像细节。
- 场景示例:更换汽车照片颜色时,能保留车型细节,仅改变颜色风格,保持真实感。
---
## 8. MetaV-JEPA 2 世界模型
**关键时间点**
- 6月11日Meta 发布 **V-JEPA 2**,称其在物理世界视觉理解和预测上达到“最先进水平”,并配套 3 个新基准用于评估“从视频推断物理世界”的能力。[17]
**定位**
- 这是面向“物理世界推理”的视频世界模型,用于增强 AI 代理对三维环境与物体运动的理解能力。
---
# 二、2025年6月大模型发展态势与阶段性回顾
结合上面这些动作,可以总结出 2025 年 6 月在大模型领域的几个关键趋势:
## 1. 开源与闭源的“正面碰撞”
- **国内厂商大举开源**
- 百度直接开源文心 4.5 全套 10 模型,权重 + 代码 + 框架完整开放,[2][5] 把自家旗舰拉进开源战场。
- 华为在 6 月底前后也首次开源盘古 7B 稠密模型与 72B MoE 模型(你给的搜索结果中有相关新闻),结合昇腾推理技术,强化国产自主生态。
- **OpenAI 继续闭源,但强化 API 能力**
- 以 o3 / o4-mini 这种 reasoning 模型形态,通过更强推理和工具调用,稳住高端商业市场。
- **结果**
2025 年中期形成“**中国以开源 + 低价 + 行业落地**对冲**美国闭源高端旗舰**”的格局中国开源模型DeepSeek、Qwen、文心 4.5 等)在全球开发者圈快速扩散。
## 2. “推理能力”成为主战场
- OpenAI 的 o 系列、DeepSeek-R1-0528、盘古 5.5 深度思考模型、Qwen3 思考模式、豆包 1.6-thinking本质上都在回答同一个问题
**如何让模型像一个会“认真思考”的助手,而不是只做表面补全?**
- 典型趋势:
- 延长思维链(更多 tokens 用于“想”而不是直接输出)。
- 快思 + 慢思自适应(盘古 5.5、o3、部分国产模型都在做类似探索
- 与工具、搜索引擎、代码执行环境的深度耦合,变成可验证、可分解的推理过程。
## 3. 多模态与“世界模型”加速演化
- 各家都将文本 + 图像 + 视频纳入统一框架:
- 文心 4.5-VL 系列、Gemini 2.5 Pro/Flash多模态推理能力显著增强。
- 阿里的 Qwen VLo、华为盘古世界模型、Meta V-JEPA 2直接指向“**理解物理世界**”的世界模型路线。
- 这意味着:
- 大模型正从“聊天/写文案”走向“驱动机器人、自动驾驶、数字孪生、具身智能”的基础组件。
## 4. 价格战与商业模式创新
- 字节豆包推出**输入长度区间定价**,大幅降价,把深度思考、多模态与基础语言统一价格体系,进一步压低企业使用门槛。[12]
- 百度文心 4.5 与 X1 的 API 定价被设计为对标并显著低于海外竞品 GPT-4.5 / R1 系列,[1] 开源又进一步拉低总拥有成本。
- 竞争重心从“谁的模型绝对最强”转向“**谁在单位成本内提供的可用能力最高**”。
## 5. 行业落地:从“试点”到“规模化”
- 华为盘古 5.5 报告中强调已经在 **30+ 行业、500+ 场景**落地。[7]
- 豆包的日调用量达到 16.4 万亿 tokens已经是**大规模生产级使用**而非试验阶段。[13]
- 气象、能源、制造、金融、医疗等垂直领域的大模型应用案例被反复提及,说明大模型正在成为各行业数字化改造的新基础设施。
---
# 三、你可以怎么“利用”这波 6 月升级?
从开发者 / 企业决策的角度2025 年 6 月之后可以有几个实际动作:
1. **选一到两个开源旗舰做“私有化基座”**
- 文心 4.5 系列、DeepSeek、Qwen3 都已经打开了高性能 + 开源的组合,[5][14][15]
- 可以按场景选择:
- 需要强中文 + 多模态:文心 4.5 / Qwen VLo
- 需要极致推理 + 代码能力DeepSeek R1/V3、盘古深度思考 + 昇腾方案
2. **把“推理模型”单独当一个能力层来规划**
- 对复杂决策、数据分析、代码生成、自动化运营任务,可优先考虑接入 o3 / o4-mini、DeepSeek-R1-0528、豆包 1.6-thinking、盘古 5.5 NLP 深度思考模型等,而不是只用通用 Chat 类模型。
3. **多模态与世界模型:从现在就开始小规模试验**
- 有视觉/视频需求的场景(制造质检、零售巡检、城市感知、智能驾驶模拟等),可以尽早评估:
- 文心 4.5-VL
- Gemini 2.5 Pro/Flash + 视频分析
- Qwen VLo
- 盘古世界模型
- Meta V-JEPA 2 相关能力
- 这类模型会直接影响 13 年后的产品差异化。
4. **成本结构重算**
- 今年 6 月的多轮降价与开源,意味着你过去一年基于 GPT-4 级别封闭模型得出的“使用成本假设”已经过时。
- 重新对比:
- 海外OpenAI o 系列 + GPT-4.1 / 4o
- 国内:豆包 1.6 + 文心 4.5/X1 + 通义 Qwen3 + DeepSeek R1/V3
- 可以规划“高端闭源 + 开源自建 + 国内商用 API”的混合架构以成本和合规为约束重新组合。
---
**一句话总结:**
2025 年 6 月是大模型从“炫技术”走向“拼推理、多模态、成本和落地”的分水岭。百度、华为、阿里、字节、DeepSeek 等国内厂商集中在这个月打出开源、降价和行业化组合拳,配合 OpenAI o 系列与 Google Gemini 2.5 的迭代,全球大模型竞争迈入“推理 + 多模态 + Agent + 产业落地”的新阶段。
---
### References
[1] 百度正式发布文心大模型4.5、文心大模型X1. [https://new.qq.com/rain/a/20250317A04W3C00](https://new.qq.com/rain/a/20250317A04W3C00)
[2] 百度文心大模型4.5系列正式开源. [http://www.news.cn/tech/20250630/bfd45156547e43e69b6460f70c90f443/c.html](http://www.news.cn/tech/20250630/bfd45156547e43e69b6460f70c90f443/c.html)
[3] 文心大模型4.5系列正式开源涵盖10款模型. [https://www.infoq.cn/news/IjqGOCRdsA9tmgHyuh8m](https://www.infoq.cn/news/IjqGOCRdsA9tmgHyuh8m)
[4] 谷歌 Gemini 新增视频上传与分析功能. [https://so.html5.qq.com/page/real/search_news?docid=70000021_33768524ec192052](https://so.html5.qq.com/page/real/search_news?docid=70000021_33768524ec192052)
[5] ERNIE 4.5 模型系列正式开源. [https://ernie.baidu.com/blog/zh/posts/ernie4.5/](https://ernie.baidu.com/blog/zh/posts/ernie4.5/)
[6] 百度大模型开源折射AI产业竞争逻辑转变. [https://www.yicai.com/news/102473029.html](https://www.yicai.com/news/102473029.html)
[7] 华为云发布盘古大模型5.5宣布新一代昇腾AI云服务上线. [https://www.huaweicloud.com/intl/zh-cn/news/20250620101057482.html](https://www.huaweicloud.com/intl/zh-cn/news/20250620101057482.html)
[8] 谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本. [https://www.ithome.com/0/858/681.htm](https://www.ithome.com/0/858/681.htm)
[9] 谷歌 Gemini 2.5 Flash-Lite、2.5 Pro 稳定版发布相关报道. 多源综合,核心信息见 IT之家与 The Paper 整合报道。
[10] Gemini 2.5 Pro | Generative AI on Vertex AI. [https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=zh-cn](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-pro?hl=zh-cn)
[11] 隆重推出OpenAI o3 和o4-mini. [https://openai.com/zh-Hans-CN/index/introducing-o3-and-o4-mini/](https://openai.com/zh-Hans-CN/index/introducing-o3-and-o4-mini/)
[12] 字节跳动 Force 原动力大会豆包大模型1.6与Seedance 1.0 Pro 发布. [https://so.html5.qq.com/page/real/search_news?docid=70000021_097684f9b3858452](https://so.html5.qq.com/page/real/search_news?docid=70000021_097684f9b3858452)
[13] 2025人工智能大事件回顾丨中国AI大模型篇豆包市场份额数据. [https://hub.baai.ac.cn/view/51710](https://hub.baai.ac.cn/view/51710)
[14] DeepSeek-R1 再进化0528 版本更新报道. [https://news.qq.com/rain/a/20250604A03N4V00](https://news.qq.com/rain/a/20250604A03N4V00)
[15] 【Model Studio】通义千问-Plus/Turbo 模型更新通知. [https://www.alibabacloud.com/zh/notice/model_studio_update_of_qwenplusturbo_4f8](https://www.alibabacloud.com/zh/notice/model_studio_update_of_qwenplusturbo_4f8)
[16] 通义千问发布全新多模态统一理解与生成模型 Qwen VLo. [https://new.qq.com/rain/a/20250629A05Q8V00](https://new.qq.com/rain/a/20250629A05Q8V00)
[17] Meta推出新模型V-JEPA 2. [https://so.html5.qq.com/page/real/search_news?docid=70000021_7806849980e84452](https://so.html5.qq.com/page/real/search_news?docid=70000021_7806849980e84452)