ai-doc/2025年ai总结/7月.md

297 lines
22 KiB
Markdown
Raw Permalink Normal View History

下面的总结基于你前面给出的搜索结果和已整理的信息,无新增外部检索。
---
# 2025年7月大模型版本更新与发展回顾重点面向中文与全球主流生态
## 一、7月整体态势从“卷参数”到“卷推理 / Agent / 多模态 / 开源”
截至2025年7月下旬全球已发布大模型总数达 **3755 个**,中国贡献 **1509 个**,占比约 **40%**,位居全球首位[1][2]。
从7月的集中事件看大模型竞争已经从
- **“谁更大”** → 向 **“谁更会想推理”“谁更好用Agent、应用场景”“谁更开放开源生态”** 转变;
- 中国开源大模型在性能、生态与落地上,实现对闭源阵营的强势追赶甚至局部反超。
7月的技术与产业高潮高度集中在 **WAIC 20257月2628日上海** 期间,各家在此前后一周密集“上新”。
---
## 二、重点版本发布与迭代(按厂商 / 阵营梳理)
### 1. 阿里通义千问 Qwen3 系列7月“5连发”补齐语言、推理、代码三条线
#### 关键时间线与版本
- **7 月 22 日**
- 发布 **Qwen3-235B-A22B-Instruct-2507-FP8Non-thinking** 升级版:
- 长文本上下文扩展到 **256K**
- 使用 FP8 低精度,重点提升推理效率与推理成本控制
- 在多项中文综合基准GQPA、AIME25 等)中通用能力显著提升[3]
- **7 月 23 日**
- 正式发布并开源 **Qwen3-Coder** AI 编程大模型:
- 面向 **Agentic Coding / 浏览器使用 / 工具调用 / 基础编码** 等多种代码任务
- 编程能力在开源阵营中登顶,接近甚至逼近 GPT-4.1 / Claude Sonnet 4 等闭源模型[3][4]
- **7 月 25 日**
- 阿里继续开源新一代推理模型“千问3推理模型”性能对标 **Gemini 2.5 Pro、o4-mini** 等,同时保持开源与低成本[4]。
- **7 月 3031 日**
- 发布 **Qwen3-30B-A3B-Instruct-2507****Qwen3-30B-A3B-Thinking-2507**
- 30B MoE 模型,每次激活仅 3B 参数,性能媲美 Gemini 2.5-Flash 与 GPT-4o 等闭源模型[3]
- 继续支持 256K 长上下文
- 思考版 / 非思考版配套,便于在成本与推理深度之间灵活取舍
#### 技术与格局意义(可执行解读)
- 如果你是 **企业技术负责人**
- 通用业务对话 + 文档类场景:优先考虑 Non-thinking 版本FP8 + 256K性价比极高
- 需要复杂代码生成 / Agent 编排:可直接基于 **Qwen3-Coder** 搭建开发者 IDE 助手或自动化脚本生成系统;
- 对隐私 / 安全要求高7 月版本已经全部开源,可私有化部署。
---
### 2. 月之暗面 Kimi K2万亿参数开源基座重新洗牌全球开源格局
#### 关键事件
- **7 月 11 日深夜**
- 月之暗面突然发布并同步开源 **Kimi K2** 模型:
- 架构:**MoE混合专家**
- 总参数:**1T万亿级**
- 激活参数:**32B / 320 亿**(具体报道有 32B 与 320 亿两种写法,本质为 3X10^10 级别)
- 发布版本:
- **Kimi-K2-Base**:基础预训练版,适合科研、自定义后训练
- **Kimi-K2-Instruct**:通用指令微调版,偏实用问答与 Agent 任务[5][6]
- 多项评测结果:
- **SWE Bench Verified代码**、**Tau2Agent**、**AceBench工具调用** 等公开基准上K2 均为开源阵营 **SOTA**[5][6]
- LMArena 等权威排行榜上Kimi K2 快速登顶全球开源模型榜首[7]
- 生态反馈:
- Perplexity CEO 等海外开发者公开表示考虑基于 K2 做后训练[8]
- Nature 报道、HuggingFace 下载量在 48 小时内超越大多数同类模型[7][9]
#### 可执行视角
- 如果你希望 **打造高智能 Agent / 代码助手**,又要 **完全掌控权重与部署**
- Kimi K2 是 2025 年 7 月之后最值得优先试用的开源基座之一;
- 尤其适合:需要复杂工具链调用、多步骤任务规划、跨系统自动操作的企业 Agent 平台;
- 成本维度MoE + 32B 活跃参数意味着同等算力下可承载更高吞吐,真实 TCO总拥有成本优于同规模稠密模型。
---
### 3. 阶跃星辰 Step 3全尺寸原生多模态推理大模型绑定国产芯片生态
#### 关键事件
- **7 月 25 日**:在 WAIC 2025 前一天的发布会上推出 **Step 3**
- 被定位为阶跃星辰“第三代基础大模型 / 主力基座”[10]
- 特点:
- 国内首个 **万亿参数混合专家模型**,总参数量比 Step 1 提升 10 倍;
- **原生多模态推理**:支持文本、图像等多模态输入,强调在“推理时代”做最适合应用的模型;
- 推理效率:在国产芯片上的推理效率最高可达 **DeepSeek-R1 的 300%**[10]
- 兼顾“强智能 + 低成本 + 可开源 + 多模态”四要素[10]。
- **7 月 31 日**:面向全球企业与开发者 **开源 Step 3**,成为全球最强开源多模态大模型之一[10][11]。
- 联合多家国内头部芯片 / 平台厂商成立 **“模芯生态创新联盟”**,重点解决:模型与国产芯片协同优化、算力成本与部署效率[10][11]。
#### 面向企业的选择建议
- 如果你计划在 **国产算力(昇腾、燧原、壁仞等)上大规模推理**
- Step 3 + 模芯生态联盟,是当前“**国产大模型 + 国产芯片**”中最有代表性的组合之一;
- 适合:金融、工业、视频理解、多模态搜索等需要高吞吐、高并发推理的场景。
---
### 4. 腾讯混元:混元 3D 世界模型 1.0,首次把“世界模型”开源到生产可用级
- **7 月 27 日WAIC 2025 腾讯论坛**
- 正式发布并开源 **混元 3D 世界模型 1.0**[12][13]
- 业界首个 **开源、可沉浸漫游、可交互、可仿真** 的 3D 世界生成模型;
- 支持文本 / 图片输入,几分钟内即可生成 **可漫游 3D 虚拟场景**,兼容传统 CG 管线[12][13]
- 落地方向游戏开发、VR/AR、智慧城市数字孪生、工业仿真等。
- 同时发布:具身智能开放平台 **Tairos钛螺丝**、智能体开发平台等,构成 “**1+3+N**” AI 应用全景图[12]。
#### 实际应用启发
- 如果你在做 **游戏、影视虚拟制作、VR、数字孪生**
- 混元 3D 世界模型 1.0 是现阶段少数支持 **“世界级别”生成** 且已经开源的模型;
- 更适合:希望在自有引擎 / 管线中塞入 3D 生成能力,而不是只用 2D 图像生图模型的团队。
---
### 5. 智谱 GLM-4.5:面向 Agent 的旗舰开源大模型
- **7 月 28 日**:智谱发布新一代旗舰模型 **GLM-4.5**,并在 HuggingFace 与 ModelScope 同步开源,权重采用 MIT 许可证[14][15]
- 专为 **智能体Agent应用** 打造的基础模型;
- 在 12 项业界主流基准上取得国内领先[14]
- 推理、代码、智能体三能力原生融合,可直接支撑复杂企业级 Workflows
- 北京市官方报道认为 GLM-4.5 是“**北京造** 大模型中开源性能全球领先”的代表[15]。
#### 对选型的现实意义
- 如果你:
- 更看重 **中文生态 + 智谱 StackGLM 工具链 + bigmodel 平台)**
- 或希望在 **政府 / 金融 / 国企** 场景下引入 **国产可控 + Agent 能力强** 的平台,
- GLM-4.5 是 7 月之后非常有代表性的选择:兼顾性能、开源协议友好度及国产生态支持。
---
### 6. 国内其他代表性事件7 月)
- **字节跳动(豆包 / Seed**
- **7 月 22 日**Seed 团队发布通用机器人模型 **GR-3**,强调高泛化、长程任务和柔性物体双臂操作,并同步展示实体机器人 ByteMini[16]
- **7 月 24 日**:正式发布端到端同声传译模型 **Seed LiveInterpret 2.0**,号称延迟与准确率接近人类同传水平,在中英同传上达到 SOTA[17]
- **7 月 31 日**:发布 **豆包·图像编辑模型 3.0****豆包·同声传译模型 2.0**,强化多模态与语音翻译产品线[18]。
- **科大讯飞星火 X1 升级**
- **7 月 23 日宣布7 月 25 日升级上线**:深度推理大模型 **讯飞星火 X1 升级版**,底座多语言能力扩展到 **130+ 语种**,在教育、医疗等场景进一步落地[19][20]。
- **商汤日日新 6.5 多模态大模型**
- **7 月 27 日WAIC 大模型论坛** 上发布 **日日新 V6.5**,强调对标 Gemini 2.0 Pro在多模态理解和生成上持续增强[21]。
---
## 三、全球排名与评测:国产模型全面跻身第一梯队
### 1. 全球 Top10 综合排名(截至 2025 年 7 月)
根据腾讯新闻等整理的 SuperCLUE、Chatbot Arena 等综合评测榜单[1][22]
|综合排名|模型|机构|亮点|
|---|---|---|---|
|1|GPT-4.5|OpenAI|总分 80.432K 上下文,复杂逻辑能力领先|
|2|Claude 3.7 Sonnet|Anthropic|HumanEval 编程 91.2 分10 万 token 长文解析|
|3|Gemini 2.0/2.5|Google DeepMind|原生多模态,百万级上下文,视频生成突出|
|4|DeepSeek R1|深度求索(中国)|国产综合最优,推理速度提升 3 倍,中文长文本专家|
|5|Qwen2.5-Max|阿里云(中国)|Chatbot Arena 全球第 7数学与编程第一|
|6|文心一言 4.0|百度(中国)|MMLU 中文第一,情感识别 92%|
|7|LLaMA 3|Meta|700 亿参数开源,生态插件丰富|
|8|Doubao-1.5-pro|字节跳动(中国)|语音识别和实时交互领先,稀疏 MoE 架构降低成本|
|9|KimiGPT 2.0|月之暗面(中国)|长文本7.5 万字)与法律条文分析突出|
|10|SenseChat 5.5|商汤科技(中国)|文科生成能力突出,中文 NLG 领先|
**解读要点**
- 前十中,中国模型占 **一半以上**,且在 **数学 / 编程 / 中文长文本 / 情感识别** 等细分能力上频繁夺冠;
- 开源权重层面,自 2025 年中起,中国开源模型在 HuggingFace 新增衍生模型中占比超过 **60%**,正在重塑全球开发者生态结构[23]。
---
### 2. SQL 能力与行业细分评测
**2025 年 7 月《大模型 SQL 能力排行榜》** 发布[24]
- 新增“大 SQL 转换”“国产数据库转换”等指标,重点评估企业数据库迁移与 SQL 优化能力;
- Claude 3.5 Sonnet、Claude Sonnet 4 首次参评;
- Gemini 2.5 Pro / Flash 转正版本的稳定性与性能得到验证。
对企业 IT 来说,这类评测给出了一个明确信号:
> **大模型已足以承担数据库迁移、SQL 优化等重资产场景,不再局限于聊天 / 文本生成。**
---
## 四、政策与治理7 月成为全球 AI 监管关键时间点
### 1. 中国:算法备案与大模型应用治理
- **7 月 14 日**:中央网信办发布第十二批深度合成服务算法备案信息,全国累计通过备案 **3834 款** 产品,其中服务提供者 2932 款[25]
- 备案门槛明显提高:对显性 / 隐性标识、训练数据合规性、内容安全责任提出更细要求;
- 备案周期从 1 个月拉长至近 3 个月,企业需要 **提前规划产品发布节奏与合规路线**
### 2. 欧盟AI Act 实施前夕的“行为准则 + 指南”
- **7 月 10 日**:欧盟委员会发布《通用 AI 实践准则》最终版General-Purpose AI Code of Practice[26]
- **7 月 1718 日**:发布《通用人工智能行为准则》与《通用 AI 模型提供者指南》[27][28]
- 对 2025 年 8 月 2 日 AI Act 中 **GPAI通用 AI 模型)义务正式生效** 做铺垫。
- 包括:训练数据来源披露、尊重知识产权、风险评估与安全测试等。
### 3. 国际治理趋势
- 新西兰 7 月发布首个国家 AI 战略,强调“宽松监管 + 负责任 AI”并重[29]
- ITU、“人工智能造福人类全球峰会”等发布一系列治理声明强调开放权重模型的战略价值与风险管理[30]
- 中国在 WAIC 2025 上倡议成立 **世界人工智能合作组织**,并提出“同球共济”的全球治理愿景[31]。
---
## 五、应用与产业落地WAIC 2025 成为里程碑
### 1. 行业标杆案例与地方实践
- **《2025 年“人工智能+”行业标杆案例荟萃》发布**
- 从全国 300+ 报送案例中筛选 80 个标杆,覆盖垂直场景、消费产品、安全治理、创新平台与人才发展[32]
- 北京、重庆等城市发布 **大模型典型应用案例 / 揭榜挂帅项目**[33][34]
- 明确将 **大模型应用落地** 作为新质生产力的重要抓手。
### 2. 具身智能与世界模型
- 2025 年被普遍视作 **“具身智能元年”**
- WAIC 发布多款人形机器人与具身智能平台,
- 例如上海“青龙”开源人形机器人、公版具身运动大模型“龙跃”等[35]
- 腾讯 **混元 3D 世界模型 1.0** 与字节 **GR-3**,标志着 **“大模型 + 机器人 / 3D 世界”** 组合走向工程可用。
---
## 六、对企业与开发者的实战建议(基于 2025 年 7 月格局)
1. **选模型:闭源 vs 开源 vs 国产**
- 若重视 **极致通用能力 + 英文生态**GPT-4.5 / Claude 3.7 / Gemini 2.0 仍是第一选择;
- 若追求 **性价比 + 开源 + 中文场景 + 私有化部署**
- 推理 / Agent**DeepSeek R1、Kimi K2、Qwen3 系列、GLM-4.5、Step 3**
- 多模态 / 3D**混元 3D、Step 3、多模态 K2**
- 政企 / 金融 / 监管敏感行业:优先选择 **已开源 + 已在本地治理语境下验证** 的国产模型Qwen3、GLM-4.5、DeepSeek、星火 X1/1.5 等)。
2. **算力与部署**
- 大规模在线推理:优先考虑 **MoE + FP8 低精度** 的最新版本Qwen3-235B FP8、Kimi K2、Step 3 等);
- 国产算力:重点关注 **Step 3 + 模芯生态联盟**、DeepSeek + 昇腾等联合方案[10][11][36]。
3. **Agent 与业务重构**
- 从“直接调用模型 API” → “构建多 Agent 协作系统”:
- 充分利用 ChatGPT Agent / AutoGLM / Qwen3-Coder / 企业级 Agent 平台;
- 对已有 RPA / 工作流:考虑以大模型为“思考与决策核心”,让传统系统只做执行层。
4. **合规与安全**
- 任何 C 端生成式应用,必须提前评估 **算法备案 + 深度合成标识 + 数据来源合法性**
- 若有欧洲业务,需提前按欧盟 AI Act 要求 **补齐训练数据可追溯、文档化、风险评估**
---
## 七、总结一句话
> **2025 年 7 月,是全球大模型进入“开源中国年 + Agent 元年 + 多模态 / 具身智能起飞”的关键节点:参数战争已成过去,未来的胜负在于——谁能以更开放的模型、更高效的算力、更可控的治理,把 AI 真正落在产业的每一条链路上。**
---
### References
[1] 2025最新全球AI大模型排名 国内外模型动态洗牌 实时更新平台推荐. [https://new.qq.com/rain/a/20250702A04XTN00](https://new.qq.com/rain/a/20250702A04XTN00)
[2] 我国大模型数量居全球首位. [https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452](https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452)
[3] 阿里通义千问发布Qwen3-Coder及Qwen3-235B-A22B-Instruct-2507等相关报道多条新闻合并。 示例:[https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml](https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml)
[4] 阿里千问3推理模型重磅更新比肩Gemini-2.5 pro、o4-mini. [https://www.qbitai.com/2025/07/312955.html](https://www.qbitai.com/2025/07/312955.html)
[5] 月之暗面发布并开源Kimi K2模型环球网. [https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml](https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml)
[6] 深夜突袭!万亿参数MoE模型Kimi K2上线即开源. [https://www.nbd.com.cn/articles/2025-07-13/3942359.html](https://www.nbd.com.cn/articles/2025-07-13/3942359.html)
[7] 人工智能 - 登顶全球榜首!月之暗面发布新款万亿参数开源大模型 K2. [https://segmentfault.com/a/1190000046911552](https://segmentfault.com/a/1190000046911552)
[8] 月之暗面推出新模型,业内人士:大模型低价竞争策略不会长久. [https://www.thepaper.cn/newsDetail_forward_31174576](https://www.thepaper.cn/newsDetail_forward_31174576)
[9] 继DeepSeek后又一国内大模型Kimi K2火起来了. [https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml](https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml)
[10] 阶跃星辰发布并将开源新一代多模推理模型 Step 3. [https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952](https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952)
[11] 阶跃星辰发布新一代基础大模型Step 3联合芯片商组建生态联盟. [https://www.jfdaily.com/sgh/detail?id=1616306](https://www.jfdaily.com/sgh/detail?id=1616306)
[12] 腾讯混元亮相WAIC 2025发布3D世界模型及系列开源模型. [https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552](https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552)
[13] 腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界模型. [https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml](https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml)
[14] 智谱AI发布GLM-4.5大模型:推理、编码、智能体三重能力原生融合. [https://www.doit.com.cn/p/539710.html](https://www.doit.com.cn/p/539710.html)
[15] “北京造”大模型开源性能全球领先. [http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html](http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html)
[16] 字节跳动发布通用机器人模型GR-3. [https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml](https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml)
[17] 字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0. [https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152](https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152)
[18] 字节豆包大模型日均调用量飙升137倍最新输入tokens价格... [https://www.sohu.com/a/919514745_116132](https://www.sohu.com/a/919514745_116132)
[19] 科大讯飞:讯飞星火X1升级版模型将于7月25日上线. [https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152](https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152)
[20] 科大讯飞将于7月25日升级讯飞星火X1. [https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml](https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml)
[21] 商汤发布日日新V6.5多模态大模型. [https://36kr.com/newsflashes/3399493302733191](https://36kr.com/newsflashes/3399493302733191)
[22] 2025年全球AI大模型综合排名Top 20. [https://juejin.cn/post/7526712797881057321](https://juejin.cn/post/7526712797881057321)
[23] 斯坦福大学发布研究报告称中国开放权重模型重塑全球AI格局. [https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html](https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html)
[24] 2025 年 7 月《大模型 SQL 能力排行榜》发布. [https://cloud.tencent.com/developer/article/2552858](https://cloud.tencent.com/developer/article/2552858)
[25] 老赵聊算法、大模型备案. [https://blog.csdn.net/meidaoliha](https://blog.csdn.net/meidaoliha)
[26] 欧盟人工智能法案,7月最终版《通用人工智能行为准则》. [https://blog.csdn.net/weixin_44799274/article/details/149463006](https://blog.csdn.net/weixin_44799274/article/details/149463006)
[27] 欧盟发布《通用人工智能行为准则》. [https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648](https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648)
[28] AI前沿| 全球立法和监管2025年7月速报. [https://www.deheheng.com/dongtai/news/34468.html](https://www.deheheng.com/dongtai/news/34468.html)
[29] 2025年7月人工智能大模型领域重大事件盘点. [https://blog.csdn.net/yuntongliangda/article/details/149845503](https://blog.csdn.net/yuntongliangda/article/details/149845503)
[30] 人工智能推动可持续发展多边合作新格局——2025年联合国可持续发展高级别政治论坛. [https://www.sdbdra.cn/newsinfo/8640575.html](https://www.sdbdra.cn/newsinfo/8640575.html)
[31] 每日一词| 世界人工智能合作组织global AI cooperation organization. [https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html](https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html)
[32] 重磅发布《2025年“人工智能+”行业标杆案例荟萃》. [https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml](https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml)
[33] 12个“揭榜挂帅”大模型应用需求发布. [https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html](https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html)
[34] 关于公布2025年重庆市人工智能典型应用案例和应用场景需求名单的通知. [https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html](https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html)
[35] 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕. [https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html](https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html)
[36] 大模型推理爆发在即 国产芯片推进超节点布局!算力成本仍待优化. [https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml](https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml)