ai-doc/2025年ai总结/7月.md

下面的总结基于你前面给出的搜索结果和已整理的信息，无新增外部检索。

---

# 2025年7月大模型版本更新与发展回顾（重点面向中文与全球主流生态）

## 一、7月整体态势：从“卷参数”到“卷推理 / Agent / 多模态 / 开源”

截至2025年7月下旬，全球已发布大模型总数达 **3755 个**，中国贡献 **1509 个**，占比约 **40%**，位居全球首位[1][2]。
从7月的集中事件看，大模型竞争已经从：

- **“谁更大”** → 向 **“谁更会想（推理）”“谁更好用（Agent、应用场景）”“谁更开放（开源生态）”** 转变；
- 中国开源大模型在性能、生态与落地上，实现对闭源阵营的强势追赶甚至局部反超。

7月的技术与产业高潮高度集中在 **WAIC 2025（7月26–28日，上海）** 期间，各家在此前后一周密集“上新”。

---

## 二、重点版本发布与迭代（按厂商 / 阵营梳理）

### 1. 阿里通义千问 Qwen3 系列：7月“5连发”，补齐语言、推理、代码三条线

#### 关键时间线与版本

- **7 月 22 日**
    - 发布 **Qwen3-235B-A22B-Instruct-2507-FP8（Non-thinking）** 升级版：
        - 长文本上下文扩展到 **256K**
        - 使用 FP8 低精度，重点提升推理效率与推理成本控制
        - 在多项中文综合基准（GQPA、AIME25 等）中通用能力显著提升[3]
- **7 月 23 日**
    - 正式发布并开源 **Qwen3-Coder** AI 编程大模型：
        - 面向 **Agentic Coding / 浏览器使用 / 工具调用 / 基础编码** 等多种代码任务
        - 编程能力在开源阵营中登顶，接近甚至逼近 GPT-4.1 / Claude Sonnet 4 等闭源模型[3][4]
- **7 月 25 日**
    - 阿里继续开源新一代推理模型（“千问3推理模型”），性能对标 **Gemini 2.5 Pro、o4-mini** 等，同时保持开源与低成本[4]。
- **7 月 30–31 日**
    - 发布 **Qwen3-30B-A3B-Instruct-2507** 与 **Qwen3-30B-A3B-Thinking-2507**：
        - 30B MoE 模型，每次激活仅 3B 参数，性能媲美 Gemini 2.5-Flash 与 GPT-4o 等闭源模型[3]
        - 继续支持 256K 长上下文
        - 思考版 / 非思考版配套，便于在成本与推理深度之间灵活取舍

#### 技术与格局意义（可执行解读）

- 如果你是 **企业技术负责人**：
    - 通用业务对话 + 文档类场景：优先考虑 Non-thinking 版本（FP8 + 256K），性价比极高；
    - 需要复杂代码生成 / Agent 编排：可直接基于 **Qwen3-Coder** 搭建开发者 IDE 助手或自动化脚本生成系统；
    - 对隐私 / 安全要求高：7 月版本已经全部开源，可私有化部署。

---

### 2. 月之暗面 Kimi K2：万亿参数开源基座重新洗牌全球开源格局

#### 关键事件

- **7 月 11 日深夜**：
    - 月之暗面突然发布并同步开源 **Kimi K2** 模型：
        - 架构：**MoE（混合专家）**
        - 总参数：**1T（万亿级）**
        - 激活参数：**32B / 320 亿**（具体报道有 32B 与 320 亿两种写法，本质为 3X10^10 级别）
        - 发布版本：
            - **Kimi-K2-Base**：基础预训练版，适合科研、自定义后训练
            - **Kimi-K2-Instruct**：通用指令微调版，偏实用问答与 Agent 任务[5][6]
- 多项评测结果：
    - **SWE Bench Verified（代码）**、**Tau2（Agent）**、**AceBench（工具调用）** 等公开基准上，K2 均为开源阵营 **SOTA**[5][6]
    - LMArena 等权威排行榜上，Kimi K2 快速登顶全球开源模型榜首[7]
- 生态反馈：
    - Perplexity CEO 等海外开发者公开表示考虑基于 K2 做后训练[8]
    - Nature 报道、HuggingFace 下载量在 48 小时内超越大多数同类模型[7][9]

#### 可执行视角

- 如果你希望 **打造高智能 Agent / 代码助手**，又要 **完全掌控权重与部署**：
    - Kimi K2 是 2025 年 7 月之后最值得优先试用的开源基座之一；
    - 尤其适合：需要复杂工具链调用、多步骤任务规划、跨系统自动操作的企业 Agent 平台；
    - 成本维度：MoE + 32B 活跃参数意味着同等算力下可承载更高吞吐，真实 TCO（总拥有成本）优于同规模稠密模型。

---

### 3. 阶跃星辰 Step 3：全尺寸原生多模态推理大模型，绑定国产芯片生态

#### 关键事件

- **7 月 25 日**：在 WAIC 2025 前一天的发布会上推出 **Step 3**：
    - 被定位为阶跃星辰“第三代基础大模型 / 主力基座”[10]；
    - 特点：
        - 国内首个 **万亿参数混合专家模型**，总参数量比 Step 1 提升 10 倍；
        - **原生多模态推理**：支持文本、图像等多模态输入，强调在“推理时代”做最适合应用的模型；
        - 推理效率：在国产芯片上的推理效率最高可达 **DeepSeek-R1 的 300%**[10]；
        - 兼顾“强智能 + 低成本 + 可开源 + 多模态”四要素[10]。
- **7 月 31 日**：面向全球企业与开发者 **开源 Step 3**，成为全球最强开源多模态大模型之一[10][11]。
- 联合多家国内头部芯片 / 平台厂商成立 **“模芯生态创新联盟”**，重点解决：模型与国产芯片协同优化、算力成本与部署效率[10][11]。

#### 面向企业的选择建议

- 如果你计划在 **国产算力（昇腾、燧原、壁仞等）上大规模推理**：
    - Step 3 + 模芯生态联盟，是当前“**国产大模型 + 国产芯片**”中最有代表性的组合之一；
    - 适合：金融、工业、视频理解、多模态搜索等需要高吞吐、高并发推理的场景。

---

### 4. 腾讯混元：混元 3D 世界模型 1.0，首次把“世界模型”开源到生产可用级

- **7 月 27 日，WAIC 2025 腾讯论坛**：
    - 正式发布并开源 **混元 3D 世界模型 1.0**[12][13]：
        - 业界首个 **开源、可沉浸漫游、可交互、可仿真** 的 3D 世界生成模型；
        - 支持文本 / 图片输入，几分钟内即可生成 **可漫游 3D 虚拟场景**，兼容传统 CG 管线[12][13]；
        - 落地方向：游戏开发、VR/AR、智慧城市数字孪生、工业仿真等。
    - 同时发布：具身智能开放平台 **Tairos（钛螺丝）**、智能体开发平台等，构成 “**1+3+N**” AI 应用全景图[12]。

#### 实际应用启发

- 如果你在做 **游戏、影视虚拟制作、VR、数字孪生**：
    - 混元 3D 世界模型 1.0 是现阶段少数支持 **“世界级别”生成** 且已经开源的模型；
    - 更适合：希望在自有引擎 / 管线中塞入 3D 生成能力，而不是只用 2D 图像生图模型的团队。

---

### 5. 智谱 GLM-4.5：面向 Agent 的旗舰开源大模型

- **7 月 28 日**：智谱发布新一代旗舰模型 **GLM-4.5**，并在 HuggingFace 与 ModelScope 同步开源，权重采用 MIT 许可证[14][15]：
    - 专为 **智能体（Agent）应用** 打造的基础模型；
    - 在 12 项业界主流基准上取得国内领先[14]；
    - 推理、代码、智能体三能力原生融合，可直接支撑复杂企业级 Workflows；
    - 北京市官方报道认为 GLM-4.5 是“**北京造** 大模型中开源性能全球领先”的代表[15]。

#### 对选型的现实意义

- 如果你：
    - 更看重 **中文生态 + 智谱 Stack（GLM 工具链 + bigmodel 平台）**；
    - 或希望在 **政府 / 金融 / 国企** 场景下引入 **国产可控 + Agent 能力强** 的平台，
    - GLM-4.5 是 7 月之后非常有代表性的选择：兼顾性能、开源协议友好度及国产生态支持。

---

### 6. 国内其他代表性事件（7 月）

- **字节跳动（豆包 / Seed）**：
    - **7 月 22 日**：Seed 团队发布通用机器人模型 **GR-3**，强调高泛化、长程任务和柔性物体双臂操作，并同步展示实体机器人 ByteMini[16]；
    - **7 月 24 日**：正式发布端到端同声传译模型 **Seed LiveInterpret 2.0**，号称延迟与准确率接近人类同传水平，在中英同传上达到 SOTA[17]；
    - **7 月 31 日**：发布 **豆包·图像编辑模型 3.0** 与 **豆包·同声传译模型 2.0**，强化多模态与语音翻译产品线[18]。
- **科大讯飞星火 X1 升级**：
    - **7 月 23 日宣布，7 月 25 日升级上线**：深度推理大模型 **讯飞星火 X1 升级版**，底座多语言能力扩展到 **130+ 语种**，在教育、医疗等场景进一步落地[19][20]。
- **商汤日日新 6.5 多模态大模型**：
    - **7 月 27 日，WAIC 大模型论坛** 上发布 **日日新 V6.5**，强调对标 Gemini 2.0 Pro，在多模态理解和生成上持续增强[21]。

---

## 三、全球排名与评测：国产模型全面跻身第一梯队

### 1. 全球 Top10 综合排名（截至 2025 年 7 月）

根据腾讯新闻等整理的 SuperCLUE、Chatbot Arena 等综合评测榜单[1][22]：

|综合排名|模型|机构|亮点|
|---|---|---|---|
|1|GPT-4.5|OpenAI|总分 80.4，32K 上下文，复杂逻辑能力领先|
|2|Claude 3.7 Sonnet|Anthropic|HumanEval 编程 91.2 分，10 万 token 长文解析|
|3|Gemini 2.0（/2.5）|Google DeepMind|原生多模态，百万级上下文，视频生成突出|
|4|DeepSeek R1|深度求索（中国）|国产综合最优，推理速度提升 3 倍，中文长文本专家|
|5|Qwen2.5-Max|阿里云（中国）|Chatbot Arena 全球第 7，数学与编程第一|
|6|文心一言 4.0|百度（中国）|MMLU 中文第一，情感识别 92%|
|7|LLaMA 3|Meta|700 亿参数开源，生态插件丰富|
|8|Doubao-1.5-pro|字节跳动（中国）|语音识别和实时交互领先，稀疏 MoE 架构降低成本|
|9|KimiGPT 2.0|月之暗面（中国）|长文本（7.5 万字）与法律条文分析突出|
|10|SenseChat 5.5|商汤科技（中国）|文科生成能力突出，中文 NLG 领先|

**解读要点**：

- 前十中，中国模型占 **一半以上**，且在 **数学 / 编程 / 中文长文本 / 情感识别** 等细分能力上频繁夺冠；
- 开源权重层面，自 2025 年中起，中国开源模型在 HuggingFace 新增衍生模型中占比超过 **60%**，正在重塑全球开发者生态结构[23]。

---

### 2. SQL 能力与行业细分评测

**2025 年 7 月《大模型 SQL 能力排行榜》** 发布[24]：

- 新增“大 SQL 转换”“国产数据库转换”等指标，重点评估企业数据库迁移与 SQL 优化能力；
- Claude 3.5 Sonnet、Claude Sonnet 4 首次参评；
- Gemini 2.5 Pro / Flash 转正版本的稳定性与性能得到验证。

对企业 IT 来说，这类评测给出了一个明确信号：

> **大模型已足以承担数据库迁移、SQL 优化等重资产场景，不再局限于聊天 / 文本生成。**

---

## 四、政策与治理：7 月成为全球 AI 监管关键时间点

### 1. 中国：算法备案与大模型应用治理

- **7 月 14 日**：中央网信办发布第十二批深度合成服务算法备案信息，全国累计通过备案 **3834 款** 产品，其中服务提供者 2932 款[25]；
    - 备案门槛明显提高：对显性 / 隐性标识、训练数据合规性、内容安全责任提出更细要求；
    - 备案周期从 1 个月拉长至近 3 个月，企业需要 **提前规划产品发布节奏与合规路线**。

### 2. 欧盟：AI Act 实施前夕的“行为准则 + 指南”

- **7 月 10 日**：欧盟委员会发布《通用 AI 实践准则》最终版（General-Purpose AI Code of Practice）[26]；
- **7 月 17–18 日**：发布《通用人工智能行为准则》与《通用 AI 模型提供者指南》[27][28]；
- 对 2025 年 8 月 2 日 AI Act 中 **GPAI（通用 AI 模型）义务正式生效** 做铺垫。
    - 包括：训练数据来源披露、尊重知识产权、风险评估与安全测试等。

### 3. 国际治理趋势

- 新西兰 7 月发布首个国家 AI 战略，强调“宽松监管 + 负责任 AI”并重[29]；
- ITU、“人工智能造福人类全球峰会”等发布一系列治理声明，强调开放权重模型的战略价值与风险管理[30]；
- 中国在 WAIC 2025 上倡议成立 **世界人工智能合作组织**，并提出“同球共济”的全球治理愿景[31]。

---

## 五、应用与产业落地：WAIC 2025 成为里程碑

### 1. 行业标杆案例与地方实践

- **《2025 年“人工智能+”行业标杆案例荟萃》发布**：
    - 从全国 300+ 报送案例中筛选 80 个标杆，覆盖垂直场景、消费产品、安全治理、创新平台与人才发展[32]；
- 北京、重庆等城市发布 **大模型典型应用案例 / 揭榜挂帅项目**，[33][34]
    - 明确将 **大模型应用落地** 作为新质生产力的重要抓手。

### 2. 具身智能与世界模型

- 2025 年被普遍视作 **“具身智能元年”**：
    - WAIC 发布多款人形机器人与具身智能平台，
    - 例如上海“青龙”开源人形机器人、公版具身运动大模型“龙跃”等[35]；
- 腾讯 **混元 3D 世界模型 1.0** 与字节 **GR-3**，标志着 **“大模型 + 机器人 / 3D 世界”** 组合走向工程可用。

---

## 六、对企业与开发者的实战建议（基于 2025 年 7 月格局）

1. **选模型：闭源 vs 开源 vs 国产**

    - 若重视 **极致通用能力 + 英文生态**：GPT-4.5 / Claude 3.7 / Gemini 2.0 仍是第一选择；
    - 若追求 **性价比 + 开源 + 中文场景 + 私有化部署**：
        - 推理 / Agent：**DeepSeek R1、Kimi K2、Qwen3 系列、GLM-4.5、Step 3**
        - 多模态 / 3D：**混元 3D、Step 3、多模态 K2**
    - 政企 / 金融 / 监管敏感行业：优先选择 **已开源 + 已在本地治理语境下验证** 的国产模型（Qwen3、GLM-4.5、DeepSeek、星火 X1/1.5 等）。
2. **算力与部署**

    - 大规模在线推理：优先考虑 **MoE + FP8 低精度** 的最新版本（Qwen3-235B FP8、Kimi K2、Step 3 等）；
    - 国产算力：重点关注 **Step 3 + 模芯生态联盟**、DeepSeek + 昇腾等联合方案[10][11][36]。
3. **Agent 与业务重构**

    - 从“直接调用模型 API” → “构建多 Agent 协作系统”：
        - 充分利用 ChatGPT Agent / AutoGLM / Qwen3-Coder / 企业级 Agent 平台；
    - 对已有 RPA / 工作流：考虑以大模型为“思考与决策核心”，让传统系统只做执行层。
4. **合规与安全**

    - 任何 C 端生成式应用，必须提前评估 **算法备案 + 深度合成标识 + 数据来源合法性**；
    - 若有欧洲业务，需提前按欧盟 AI Act 要求 **补齐训练数据可追溯、文档化、风险评估**。

---

## 七、总结一句话

> **2025 年 7 月，是全球大模型进入“开源中国年 + Agent 元年 + 多模态 / 具身智能起飞”的关键节点：参数战争已成过去，未来的胜负在于——谁能以更开放的模型、更高效的算力、更可控的治理，把 AI 真正落在产业的每一条链路上。**

---

### References

[1] 2025最新全球AI大模型排名 国内外模型动态洗牌 实时更新平台推荐. [https://new.qq.com/rain/a/20250702A04XTN00](https://new.qq.com/rain/a/20250702A04XTN00)
[2] 我国大模型数量居全球首位. [https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452](https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452)
[3] 阿里通义千问发布Qwen3-Coder及Qwen3-235B-A22B-Instruct-2507等相关报道（多条新闻合并）。 示例：[https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml](https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml)
[4] 阿里千问3推理模型重磅更新，比肩Gemini-2.5 pro、o4-mini. [https://www.qbitai.com/2025/07/312955.html](https://www.qbitai.com/2025/07/312955.html)
[5] 月之暗面发布并开源Kimi K2模型环球网. [https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml](https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml)
[6] 深夜突袭!万亿参数MoE模型Kimi K2上线即开源. [https://www.nbd.com.cn/articles/2025-07-13/3942359.html](https://www.nbd.com.cn/articles/2025-07-13/3942359.html)
[7] 人工智能 - 登顶全球榜首!月之暗面发布新款万亿参数开源大模型 K2. [https://segmentfault.com/a/1190000046911552](https://segmentfault.com/a/1190000046911552)
[8] 月之暗面推出新模型,业内人士:大模型低价竞争策略不会长久. [https://www.thepaper.cn/newsDetail_forward_31174576](https://www.thepaper.cn/newsDetail_forward_31174576)
[9] 继DeepSeek后，又一国内大模型Kimi K2火起来了. [https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml](https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml)
[10] 阶跃星辰发布并将开源新一代多模推理模型 Step 3. [https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952](https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952)
[11] 阶跃星辰发布新一代基础大模型Step 3，联合芯片商组建生态联盟. [https://www.jfdaily.com/sgh/detail?id=1616306](https://www.jfdaily.com/sgh/detail?id=1616306)
[12] 腾讯混元亮相WAIC 2025，发布3D世界模型及系列开源模型. [https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552](https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552)
[13] 腾讯发布混元3D世界模型1.0：首个支持物理仿真的开源世界模型. [https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml](https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml)
[14] 智谱AI发布GLM-4.5大模型：推理、编码、智能体三重能力原生融合. [https://www.doit.com.cn/p/539710.html](https://www.doit.com.cn/p/539710.html)
[15] “北京造”大模型开源性能全球领先. [http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html](http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html)
[16] 字节跳动发布通用机器人模型GR-3. [https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml](https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml)
[17] 字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0. [https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152](https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152)
[18] 字节豆包大模型日均调用量飙升137倍，最新输入tokens价格... [https://www.sohu.com/a/919514745_116132](https://www.sohu.com/a/919514745_116132)
[19] 科大讯飞:讯飞星火X1升级版模型将于7月25日上线. [https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152](https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152)
[20] 科大讯飞：将于7月25日升级讯飞星火X1. [https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml](https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml)
[21] 商汤发布日日新V6.5多模态大模型. [https://36kr.com/newsflashes/3399493302733191](https://36kr.com/newsflashes/3399493302733191)
[22] 2025年全球AI大模型综合排名（Top 20）. [https://juejin.cn/post/7526712797881057321](https://juejin.cn/post/7526712797881057321)
[23] 斯坦福大学发布研究报告称：中国开放权重模型重塑全球AI格局. [https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html](https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html)
[24] 2025 年 7 月《大模型 SQL 能力排行榜》发布. [https://cloud.tencent.com/developer/article/2552858](https://cloud.tencent.com/developer/article/2552858)
[25] 老赵聊算法、大模型备案. [https://blog.csdn.net/meidaoliha](https://blog.csdn.net/meidaoliha)
[26] 欧盟人工智能法案,7月最终版《通用人工智能行为准则》. [https://blog.csdn.net/weixin_44799274/article/details/149463006](https://blog.csdn.net/weixin_44799274/article/details/149463006)
[27] 欧盟发布《通用人工智能行为准则》. [https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648](https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648)
[28] AI前沿| 全球立法和监管2025年7月速报. [https://www.deheheng.com/dongtai/news/34468.html](https://www.deheheng.com/dongtai/news/34468.html)
[29] 2025年7月人工智能大模型领域重大事件盘点. [https://blog.csdn.net/yuntongliangda/article/details/149845503](https://blog.csdn.net/yuntongliangda/article/details/149845503)
[30] 人工智能推动可持续发展多边合作新格局——2025年联合国可持续发展高级别政治论坛. [https://www.sdbdra.cn/newsinfo/8640575.html](https://www.sdbdra.cn/newsinfo/8640575.html)
[31] 每日一词| 世界人工智能合作组织global AI cooperation organization. [https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html](https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html)
[32] 重磅发布！《2025年“人工智能+”行业标杆案例荟萃》. [https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml](https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml)
[33] 12个“揭榜挂帅”大模型应用需求发布. [https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html](https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html)
[34] 关于公布2025年重庆市人工智能典型应用案例和应用场景需求名单的通知. [https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html](https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html)
[35] 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕. [https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html](https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html)
[36] 大模型推理爆发在即 国产芯片推进超节点布局！算力成本仍待优化. [https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml](https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml)