ai-doc/2025年ai总结/7月.md

297 lines
22 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

下面的总结基于你前面给出的搜索结果和已整理的信息,无新增外部检索。
---
# 2025年7月大模型版本更新与发展回顾重点面向中文与全球主流生态
## 一、7月整体态势从“卷参数”到“卷推理 / Agent / 多模态 / 开源”
截至2025年7月下旬全球已发布大模型总数达 **3755 个**,中国贡献 **1509 个**,占比约 **40%**,位居全球首位[1][2]。
从7月的集中事件看大模型竞争已经从
- **“谁更大”** → 向 **“谁更会想推理”“谁更好用Agent、应用场景”“谁更开放开源生态”** 转变;
- 中国开源大模型在性能、生态与落地上,实现对闭源阵营的强势追赶甚至局部反超。
7月的技术与产业高潮高度集中在 **WAIC 20257月2628日上海** 期间,各家在此前后一周密集“上新”。
---
## 二、重点版本发布与迭代(按厂商 / 阵营梳理)
### 1. 阿里通义千问 Qwen3 系列7月“5连发”补齐语言、推理、代码三条线
#### 关键时间线与版本
- **7 月 22 日**
- 发布 **Qwen3-235B-A22B-Instruct-2507-FP8Non-thinking** 升级版:
- 长文本上下文扩展到 **256K**
- 使用 FP8 低精度,重点提升推理效率与推理成本控制
- 在多项中文综合基准GQPA、AIME25 等)中通用能力显著提升[3]
- **7 月 23 日**
- 正式发布并开源 **Qwen3-Coder** AI 编程大模型:
- 面向 **Agentic Coding / 浏览器使用 / 工具调用 / 基础编码** 等多种代码任务
- 编程能力在开源阵营中登顶,接近甚至逼近 GPT-4.1 / Claude Sonnet 4 等闭源模型[3][4]
- **7 月 25 日**
- 阿里继续开源新一代推理模型“千问3推理模型”性能对标 **Gemini 2.5 Pro、o4-mini** 等,同时保持开源与低成本[4]。
- **7 月 3031 日**
- 发布 **Qwen3-30B-A3B-Instruct-2507****Qwen3-30B-A3B-Thinking-2507**
- 30B MoE 模型,每次激活仅 3B 参数,性能媲美 Gemini 2.5-Flash 与 GPT-4o 等闭源模型[3]
- 继续支持 256K 长上下文
- 思考版 / 非思考版配套,便于在成本与推理深度之间灵活取舍
#### 技术与格局意义(可执行解读)
- 如果你是 **企业技术负责人**
- 通用业务对话 + 文档类场景:优先考虑 Non-thinking 版本FP8 + 256K性价比极高
- 需要复杂代码生成 / Agent 编排:可直接基于 **Qwen3-Coder** 搭建开发者 IDE 助手或自动化脚本生成系统;
- 对隐私 / 安全要求高7 月版本已经全部开源,可私有化部署。
---
### 2. 月之暗面 Kimi K2万亿参数开源基座重新洗牌全球开源格局
#### 关键事件
- **7 月 11 日深夜**
- 月之暗面突然发布并同步开源 **Kimi K2** 模型:
- 架构:**MoE混合专家**
- 总参数:**1T万亿级**
- 激活参数:**32B / 320 亿**(具体报道有 32B 与 320 亿两种写法,本质为 3X10^10 级别)
- 发布版本:
- **Kimi-K2-Base**:基础预训练版,适合科研、自定义后训练
- **Kimi-K2-Instruct**:通用指令微调版,偏实用问答与 Agent 任务[5][6]
- 多项评测结果:
- **SWE Bench Verified代码**、**Tau2Agent**、**AceBench工具调用** 等公开基准上K2 均为开源阵营 **SOTA**[5][6]
- LMArena 等权威排行榜上Kimi K2 快速登顶全球开源模型榜首[7]
- 生态反馈:
- Perplexity CEO 等海外开发者公开表示考虑基于 K2 做后训练[8]
- Nature 报道、HuggingFace 下载量在 48 小时内超越大多数同类模型[7][9]
#### 可执行视角
- 如果你希望 **打造高智能 Agent / 代码助手**,又要 **完全掌控权重与部署**
- Kimi K2 是 2025 年 7 月之后最值得优先试用的开源基座之一;
- 尤其适合:需要复杂工具链调用、多步骤任务规划、跨系统自动操作的企业 Agent 平台;
- 成本维度MoE + 32B 活跃参数意味着同等算力下可承载更高吞吐,真实 TCO总拥有成本优于同规模稠密模型。
---
### 3. 阶跃星辰 Step 3全尺寸原生多模态推理大模型绑定国产芯片生态
#### 关键事件
- **7 月 25 日**:在 WAIC 2025 前一天的发布会上推出 **Step 3**
- 被定位为阶跃星辰“第三代基础大模型 / 主力基座”[10]
- 特点:
- 国内首个 **万亿参数混合专家模型**,总参数量比 Step 1 提升 10 倍;
- **原生多模态推理**:支持文本、图像等多模态输入,强调在“推理时代”做最适合应用的模型;
- 推理效率:在国产芯片上的推理效率最高可达 **DeepSeek-R1 的 300%**[10]
- 兼顾“强智能 + 低成本 + 可开源 + 多模态”四要素[10]。
- **7 月 31 日**:面向全球企业与开发者 **开源 Step 3**,成为全球最强开源多模态大模型之一[10][11]。
- 联合多家国内头部芯片 / 平台厂商成立 **“模芯生态创新联盟”**,重点解决:模型与国产芯片协同优化、算力成本与部署效率[10][11]。
#### 面向企业的选择建议
- 如果你计划在 **国产算力(昇腾、燧原、壁仞等)上大规模推理**
- Step 3 + 模芯生态联盟,是当前“**国产大模型 + 国产芯片**”中最有代表性的组合之一;
- 适合:金融、工业、视频理解、多模态搜索等需要高吞吐、高并发推理的场景。
---
### 4. 腾讯混元:混元 3D 世界模型 1.0,首次把“世界模型”开源到生产可用级
- **7 月 27 日WAIC 2025 腾讯论坛**
- 正式发布并开源 **混元 3D 世界模型 1.0**[12][13]
- 业界首个 **开源、可沉浸漫游、可交互、可仿真** 的 3D 世界生成模型;
- 支持文本 / 图片输入,几分钟内即可生成 **可漫游 3D 虚拟场景**,兼容传统 CG 管线[12][13]
- 落地方向游戏开发、VR/AR、智慧城市数字孪生、工业仿真等。
- 同时发布:具身智能开放平台 **Tairos钛螺丝**、智能体开发平台等,构成 “**1+3+N**” AI 应用全景图[12]。
#### 实际应用启发
- 如果你在做 **游戏、影视虚拟制作、VR、数字孪生**
- 混元 3D 世界模型 1.0 是现阶段少数支持 **“世界级别”生成** 且已经开源的模型;
- 更适合:希望在自有引擎 / 管线中塞入 3D 生成能力,而不是只用 2D 图像生图模型的团队。
---
### 5. 智谱 GLM-4.5:面向 Agent 的旗舰开源大模型
- **7 月 28 日**:智谱发布新一代旗舰模型 **GLM-4.5**,并在 HuggingFace 与 ModelScope 同步开源,权重采用 MIT 许可证[14][15]
- 专为 **智能体Agent应用** 打造的基础模型;
- 在 12 项业界主流基准上取得国内领先[14]
- 推理、代码、智能体三能力原生融合,可直接支撑复杂企业级 Workflows
- 北京市官方报道认为 GLM-4.5 是“**北京造** 大模型中开源性能全球领先”的代表[15]。
#### 对选型的现实意义
- 如果你:
- 更看重 **中文生态 + 智谱 StackGLM 工具链 + bigmodel 平台)**
- 或希望在 **政府 / 金融 / 国企** 场景下引入 **国产可控 + Agent 能力强** 的平台,
- GLM-4.5 是 7 月之后非常有代表性的选择:兼顾性能、开源协议友好度及国产生态支持。
---
### 6. 国内其他代表性事件7 月)
- **字节跳动(豆包 / Seed**
- **7 月 22 日**Seed 团队发布通用机器人模型 **GR-3**,强调高泛化、长程任务和柔性物体双臂操作,并同步展示实体机器人 ByteMini[16]
- **7 月 24 日**:正式发布端到端同声传译模型 **Seed LiveInterpret 2.0**,号称延迟与准确率接近人类同传水平,在中英同传上达到 SOTA[17]
- **7 月 31 日**:发布 **豆包·图像编辑模型 3.0****豆包·同声传译模型 2.0**,强化多模态与语音翻译产品线[18]。
- **科大讯飞星火 X1 升级**
- **7 月 23 日宣布7 月 25 日升级上线**:深度推理大模型 **讯飞星火 X1 升级版**,底座多语言能力扩展到 **130+ 语种**,在教育、医疗等场景进一步落地[19][20]。
- **商汤日日新 6.5 多模态大模型**
- **7 月 27 日WAIC 大模型论坛** 上发布 **日日新 V6.5**,强调对标 Gemini 2.0 Pro在多模态理解和生成上持续增强[21]。
---
## 三、全球排名与评测:国产模型全面跻身第一梯队
### 1. 全球 Top10 综合排名(截至 2025 年 7 月)
根据腾讯新闻等整理的 SuperCLUE、Chatbot Arena 等综合评测榜单[1][22]
|综合排名|模型|机构|亮点|
|---|---|---|---|
|1|GPT-4.5|OpenAI|总分 80.432K 上下文,复杂逻辑能力领先|
|2|Claude 3.7 Sonnet|Anthropic|HumanEval 编程 91.2 分10 万 token 长文解析|
|3|Gemini 2.0/2.5|Google DeepMind|原生多模态,百万级上下文,视频生成突出|
|4|DeepSeek R1|深度求索(中国)|国产综合最优,推理速度提升 3 倍,中文长文本专家|
|5|Qwen2.5-Max|阿里云(中国)|Chatbot Arena 全球第 7数学与编程第一|
|6|文心一言 4.0|百度(中国)|MMLU 中文第一,情感识别 92%|
|7|LLaMA 3|Meta|700 亿参数开源,生态插件丰富|
|8|Doubao-1.5-pro|字节跳动(中国)|语音识别和实时交互领先,稀疏 MoE 架构降低成本|
|9|KimiGPT 2.0|月之暗面(中国)|长文本7.5 万字)与法律条文分析突出|
|10|SenseChat 5.5|商汤科技(中国)|文科生成能力突出,中文 NLG 领先|
**解读要点**
- 前十中,中国模型占 **一半以上**,且在 **数学 / 编程 / 中文长文本 / 情感识别** 等细分能力上频繁夺冠;
- 开源权重层面,自 2025 年中起,中国开源模型在 HuggingFace 新增衍生模型中占比超过 **60%**,正在重塑全球开发者生态结构[23]。
---
### 2. SQL 能力与行业细分评测
**2025 年 7 月《大模型 SQL 能力排行榜》** 发布[24]
- 新增“大 SQL 转换”“国产数据库转换”等指标,重点评估企业数据库迁移与 SQL 优化能力;
- Claude 3.5 Sonnet、Claude Sonnet 4 首次参评;
- Gemini 2.5 Pro / Flash 转正版本的稳定性与性能得到验证。
对企业 IT 来说,这类评测给出了一个明确信号:
> **大模型已足以承担数据库迁移、SQL 优化等重资产场景,不再局限于聊天 / 文本生成。**
---
## 四、政策与治理7 月成为全球 AI 监管关键时间点
### 1. 中国:算法备案与大模型应用治理
- **7 月 14 日**:中央网信办发布第十二批深度合成服务算法备案信息,全国累计通过备案 **3834 款** 产品,其中服务提供者 2932 款[25]
- 备案门槛明显提高:对显性 / 隐性标识、训练数据合规性、内容安全责任提出更细要求;
- 备案周期从 1 个月拉长至近 3 个月,企业需要 **提前规划产品发布节奏与合规路线**
### 2. 欧盟AI Act 实施前夕的“行为准则 + 指南”
- **7 月 10 日**:欧盟委员会发布《通用 AI 实践准则》最终版General-Purpose AI Code of Practice[26]
- **7 月 1718 日**:发布《通用人工智能行为准则》与《通用 AI 模型提供者指南》[27][28]
- 对 2025 年 8 月 2 日 AI Act 中 **GPAI通用 AI 模型)义务正式生效** 做铺垫。
- 包括:训练数据来源披露、尊重知识产权、风险评估与安全测试等。
### 3. 国际治理趋势
- 新西兰 7 月发布首个国家 AI 战略,强调“宽松监管 + 负责任 AI”并重[29]
- ITU、“人工智能造福人类全球峰会”等发布一系列治理声明强调开放权重模型的战略价值与风险管理[30]
- 中国在 WAIC 2025 上倡议成立 **世界人工智能合作组织**,并提出“同球共济”的全球治理愿景[31]。
---
## 五、应用与产业落地WAIC 2025 成为里程碑
### 1. 行业标杆案例与地方实践
- **《2025 年“人工智能+”行业标杆案例荟萃》发布**
- 从全国 300+ 报送案例中筛选 80 个标杆,覆盖垂直场景、消费产品、安全治理、创新平台与人才发展[32]
- 北京、重庆等城市发布 **大模型典型应用案例 / 揭榜挂帅项目**[33][34]
- 明确将 **大模型应用落地** 作为新质生产力的重要抓手。
### 2. 具身智能与世界模型
- 2025 年被普遍视作 **“具身智能元年”**
- WAIC 发布多款人形机器人与具身智能平台,
- 例如上海“青龙”开源人形机器人、公版具身运动大模型“龙跃”等[35]
- 腾讯 **混元 3D 世界模型 1.0** 与字节 **GR-3**,标志着 **“大模型 + 机器人 / 3D 世界”** 组合走向工程可用。
---
## 六、对企业与开发者的实战建议(基于 2025 年 7 月格局)
1. **选模型:闭源 vs 开源 vs 国产**
- 若重视 **极致通用能力 + 英文生态**GPT-4.5 / Claude 3.7 / Gemini 2.0 仍是第一选择;
- 若追求 **性价比 + 开源 + 中文场景 + 私有化部署**
- 推理 / Agent**DeepSeek R1、Kimi K2、Qwen3 系列、GLM-4.5、Step 3**
- 多模态 / 3D**混元 3D、Step 3、多模态 K2**
- 政企 / 金融 / 监管敏感行业:优先选择 **已开源 + 已在本地治理语境下验证** 的国产模型Qwen3、GLM-4.5、DeepSeek、星火 X1/1.5 等)。
2. **算力与部署**
- 大规模在线推理:优先考虑 **MoE + FP8 低精度** 的最新版本Qwen3-235B FP8、Kimi K2、Step 3 等);
- 国产算力:重点关注 **Step 3 + 模芯生态联盟**、DeepSeek + 昇腾等联合方案[10][11][36]。
3. **Agent 与业务重构**
- 从“直接调用模型 API” → “构建多 Agent 协作系统”:
- 充分利用 ChatGPT Agent / AutoGLM / Qwen3-Coder / 企业级 Agent 平台;
- 对已有 RPA / 工作流:考虑以大模型为“思考与决策核心”,让传统系统只做执行层。
4. **合规与安全**
- 任何 C 端生成式应用,必须提前评估 **算法备案 + 深度合成标识 + 数据来源合法性**
- 若有欧洲业务,需提前按欧盟 AI Act 要求 **补齐训练数据可追溯、文档化、风险评估**
---
## 七、总结一句话
> **2025 年 7 月,是全球大模型进入“开源中国年 + Agent 元年 + 多模态 / 具身智能起飞”的关键节点:参数战争已成过去,未来的胜负在于——谁能以更开放的模型、更高效的算力、更可控的治理,把 AI 真正落在产业的每一条链路上。**
---
### References
[1] 2025最新全球AI大模型排名 国内外模型动态洗牌 实时更新平台推荐. [https://new.qq.com/rain/a/20250702A04XTN00](https://new.qq.com/rain/a/20250702A04XTN00)
[2] 我国大模型数量居全球首位. [https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452](https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452)
[3] 阿里通义千问发布Qwen3-Coder及Qwen3-235B-A22B-Instruct-2507等相关报道多条新闻合并。 示例:[https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml](https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml)
[4] 阿里千问3推理模型重磅更新比肩Gemini-2.5 pro、o4-mini. [https://www.qbitai.com/2025/07/312955.html](https://www.qbitai.com/2025/07/312955.html)
[5] 月之暗面发布并开源Kimi K2模型环球网. [https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml](https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml)
[6] 深夜突袭!万亿参数MoE模型Kimi K2上线即开源. [https://www.nbd.com.cn/articles/2025-07-13/3942359.html](https://www.nbd.com.cn/articles/2025-07-13/3942359.html)
[7] 人工智能 - 登顶全球榜首!月之暗面发布新款万亿参数开源大模型 K2. [https://segmentfault.com/a/1190000046911552](https://segmentfault.com/a/1190000046911552)
[8] 月之暗面推出新模型,业内人士:大模型低价竞争策略不会长久. [https://www.thepaper.cn/newsDetail_forward_31174576](https://www.thepaper.cn/newsDetail_forward_31174576)
[9] 继DeepSeek后又一国内大模型Kimi K2火起来了. [https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml](https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml)
[10] 阶跃星辰发布并将开源新一代多模推理模型 Step 3. [https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952](https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952)
[11] 阶跃星辰发布新一代基础大模型Step 3联合芯片商组建生态联盟. [https://www.jfdaily.com/sgh/detail?id=1616306](https://www.jfdaily.com/sgh/detail?id=1616306)
[12] 腾讯混元亮相WAIC 2025发布3D世界模型及系列开源模型. [https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552](https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552)
[13] 腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界模型. [https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml](https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml)
[14] 智谱AI发布GLM-4.5大模型:推理、编码、智能体三重能力原生融合. [https://www.doit.com.cn/p/539710.html](https://www.doit.com.cn/p/539710.html)
[15] “北京造”大模型开源性能全球领先. [http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html](http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html)
[16] 字节跳动发布通用机器人模型GR-3. [https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml](https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml)
[17] 字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0. [https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152](https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152)
[18] 字节豆包大模型日均调用量飙升137倍最新输入tokens价格... [https://www.sohu.com/a/919514745_116132](https://www.sohu.com/a/919514745_116132)
[19] 科大讯飞:讯飞星火X1升级版模型将于7月25日上线. [https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152](https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152)
[20] 科大讯飞将于7月25日升级讯飞星火X1. [https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml](https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml)
[21] 商汤发布日日新V6.5多模态大模型. [https://36kr.com/newsflashes/3399493302733191](https://36kr.com/newsflashes/3399493302733191)
[22] 2025年全球AI大模型综合排名Top 20. [https://juejin.cn/post/7526712797881057321](https://juejin.cn/post/7526712797881057321)
[23] 斯坦福大学发布研究报告称中国开放权重模型重塑全球AI格局. [https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html](https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html)
[24] 2025 年 7 月《大模型 SQL 能力排行榜》发布. [https://cloud.tencent.com/developer/article/2552858](https://cloud.tencent.com/developer/article/2552858)
[25] 老赵聊算法、大模型备案. [https://blog.csdn.net/meidaoliha](https://blog.csdn.net/meidaoliha)
[26] 欧盟人工智能法案,7月最终版《通用人工智能行为准则》. [https://blog.csdn.net/weixin_44799274/article/details/149463006](https://blog.csdn.net/weixin_44799274/article/details/149463006)
[27] 欧盟发布《通用人工智能行为准则》. [https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648](https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648)
[28] AI前沿| 全球立法和监管2025年7月速报. [https://www.deheheng.com/dongtai/news/34468.html](https://www.deheheng.com/dongtai/news/34468.html)
[29] 2025年7月人工智能大模型领域重大事件盘点. [https://blog.csdn.net/yuntongliangda/article/details/149845503](https://blog.csdn.net/yuntongliangda/article/details/149845503)
[30] 人工智能推动可持续发展多边合作新格局——2025年联合国可持续发展高级别政治论坛. [https://www.sdbdra.cn/newsinfo/8640575.html](https://www.sdbdra.cn/newsinfo/8640575.html)
[31] 每日一词| 世界人工智能合作组织global AI cooperation organization. [https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html](https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html)
[32] 重磅发布《2025年“人工智能+”行业标杆案例荟萃》. [https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml](https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml)
[33] 12个“揭榜挂帅”大模型应用需求发布. [https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html](https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html)
[34] 关于公布2025年重庆市人工智能典型应用案例和应用场景需求名单的通知. [https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html](https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html)
[35] 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕. [https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html](https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html)
[36] 大模型推理爆发在即 国产芯片推进超节点布局!算力成本仍待优化. [https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml](https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml)