22 KiB
下面的总结基于你前面给出的搜索结果和已整理的信息,无新增外部检索。
2025年7月大模型版本更新与发展回顾(重点面向中文与全球主流生态)
一、7月整体态势:从“卷参数”到“卷推理 / Agent / 多模态 / 开源”
截至2025年7月下旬,全球已发布大模型总数达 3755 个,中国贡献 1509 个,占比约 40%,位居全球首位[1][2]。
从7月的集中事件看,大模型竞争已经从:
- “谁更大” → 向 “谁更会想(推理)”“谁更好用(Agent、应用场景)”“谁更开放(开源生态)” 转变;
- 中国开源大模型在性能、生态与落地上,实现对闭源阵营的强势追赶甚至局部反超。
7月的技术与产业高潮高度集中在 WAIC 2025(7月26–28日,上海) 期间,各家在此前后一周密集“上新”。
二、重点版本发布与迭代(按厂商 / 阵营梳理)
1. 阿里通义千问 Qwen3 系列:7月“5连发”,补齐语言、推理、代码三条线
关键时间线与版本
- 7 月 22 日
- 发布 Qwen3-235B-A22B-Instruct-2507-FP8(Non-thinking) 升级版:
- 长文本上下文扩展到 256K
- 使用 FP8 低精度,重点提升推理效率与推理成本控制
- 在多项中文综合基准(GQPA、AIME25 等)中通用能力显著提升[3]
- 发布 Qwen3-235B-A22B-Instruct-2507-FP8(Non-thinking) 升级版:
- 7 月 23 日
- 正式发布并开源 Qwen3-Coder AI 编程大模型:
- 面向 Agentic Coding / 浏览器使用 / 工具调用 / 基础编码 等多种代码任务
- 编程能力在开源阵营中登顶,接近甚至逼近 GPT-4.1 / Claude Sonnet 4 等闭源模型[3][4]
- 正式发布并开源 Qwen3-Coder AI 编程大模型:
- 7 月 25 日
- 阿里继续开源新一代推理模型(“千问3推理模型”),性能对标 Gemini 2.5 Pro、o4-mini 等,同时保持开源与低成本[4]。
- 7 月 30–31 日
- 发布 Qwen3-30B-A3B-Instruct-2507 与 Qwen3-30B-A3B-Thinking-2507:
- 30B MoE 模型,每次激活仅 3B 参数,性能媲美 Gemini 2.5-Flash 与 GPT-4o 等闭源模型[3]
- 继续支持 256K 长上下文
- 思考版 / 非思考版配套,便于在成本与推理深度之间灵活取舍
- 发布 Qwen3-30B-A3B-Instruct-2507 与 Qwen3-30B-A3B-Thinking-2507:
技术与格局意义(可执行解读)
- 如果你是 企业技术负责人:
- 通用业务对话 + 文档类场景:优先考虑 Non-thinking 版本(FP8 + 256K),性价比极高;
- 需要复杂代码生成 / Agent 编排:可直接基于 Qwen3-Coder 搭建开发者 IDE 助手或自动化脚本生成系统;
- 对隐私 / 安全要求高:7 月版本已经全部开源,可私有化部署。
2. 月之暗面 Kimi K2:万亿参数开源基座重新洗牌全球开源格局
关键事件
- 7 月 11 日深夜:
- 月之暗面突然发布并同步开源 Kimi K2 模型:
- 架构:MoE(混合专家)
- 总参数:1T(万亿级)
- 激活参数:32B / 320 亿(具体报道有 32B 与 320 亿两种写法,本质为 3X10^10 级别)
- 发布版本:
- Kimi-K2-Base:基础预训练版,适合科研、自定义后训练
- Kimi-K2-Instruct:通用指令微调版,偏实用问答与 Agent 任务[5][6]
- 月之暗面突然发布并同步开源 Kimi K2 模型:
- 多项评测结果:
- SWE Bench Verified(代码)、Tau2(Agent)、AceBench(工具调用) 等公开基准上,K2 均为开源阵营 SOTA[5][6]
- LMArena 等权威排行榜上,Kimi K2 快速登顶全球开源模型榜首[7]
- 生态反馈:
- Perplexity CEO 等海外开发者公开表示考虑基于 K2 做后训练[8]
- Nature 报道、HuggingFace 下载量在 48 小时内超越大多数同类模型[7][9]
可执行视角
- 如果你希望 打造高智能 Agent / 代码助手,又要 完全掌控权重与部署:
- Kimi K2 是 2025 年 7 月之后最值得优先试用的开源基座之一;
- 尤其适合:需要复杂工具链调用、多步骤任务规划、跨系统自动操作的企业 Agent 平台;
- 成本维度:MoE + 32B 活跃参数意味着同等算力下可承载更高吞吐,真实 TCO(总拥有成本)优于同规模稠密模型。
3. 阶跃星辰 Step 3:全尺寸原生多模态推理大模型,绑定国产芯片生态
关键事件
- 7 月 25 日:在 WAIC 2025 前一天的发布会上推出 Step 3:
- 被定位为阶跃星辰“第三代基础大模型 / 主力基座”[10];
- 特点:
- 国内首个 万亿参数混合专家模型,总参数量比 Step 1 提升 10 倍;
- 原生多模态推理:支持文本、图像等多模态输入,强调在“推理时代”做最适合应用的模型;
- 推理效率:在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%[10];
- 兼顾“强智能 + 低成本 + 可开源 + 多模态”四要素[10]。
- 7 月 31 日:面向全球企业与开发者 开源 Step 3,成为全球最强开源多模态大模型之一[10][11]。
- 联合多家国内头部芯片 / 平台厂商成立 “模芯生态创新联盟”,重点解决:模型与国产芯片协同优化、算力成本与部署效率[10][11]。
面向企业的选择建议
- 如果你计划在 国产算力(昇腾、燧原、壁仞等)上大规模推理:
- Step 3 + 模芯生态联盟,是当前“国产大模型 + 国产芯片”中最有代表性的组合之一;
- 适合:金融、工业、视频理解、多模态搜索等需要高吞吐、高并发推理的场景。
4. 腾讯混元:混元 3D 世界模型 1.0,首次把“世界模型”开源到生产可用级
- 7 月 27 日,WAIC 2025 腾讯论坛:
- 正式发布并开源 混元 3D 世界模型 1.0[12][13]:
- 业界首个 开源、可沉浸漫游、可交互、可仿真 的 3D 世界生成模型;
- 支持文本 / 图片输入,几分钟内即可生成 可漫游 3D 虚拟场景,兼容传统 CG 管线[12][13];
- 落地方向:游戏开发、VR/AR、智慧城市数字孪生、工业仿真等。
- 同时发布:具身智能开放平台 Tairos(钛螺丝)、智能体开发平台等,构成 “1+3+N” AI 应用全景图[12]。
- 正式发布并开源 混元 3D 世界模型 1.0[12][13]:
实际应用启发
- 如果你在做 游戏、影视虚拟制作、VR、数字孪生:
- 混元 3D 世界模型 1.0 是现阶段少数支持 “世界级别”生成 且已经开源的模型;
- 更适合:希望在自有引擎 / 管线中塞入 3D 生成能力,而不是只用 2D 图像生图模型的团队。
5. 智谱 GLM-4.5:面向 Agent 的旗舰开源大模型
- 7 月 28 日:智谱发布新一代旗舰模型 GLM-4.5,并在 HuggingFace 与 ModelScope 同步开源,权重采用 MIT 许可证[14][15]:
- 专为 智能体(Agent)应用 打造的基础模型;
- 在 12 项业界主流基准上取得国内领先[14];
- 推理、代码、智能体三能力原生融合,可直接支撑复杂企业级 Workflows;
- 北京市官方报道认为 GLM-4.5 是“北京造 大模型中开源性能全球领先”的代表[15]。
对选型的现实意义
- 如果你:
- 更看重 中文生态 + 智谱 Stack(GLM 工具链 + bigmodel 平台);
- 或希望在 政府 / 金融 / 国企 场景下引入 国产可控 + Agent 能力强 的平台,
- GLM-4.5 是 7 月之后非常有代表性的选择:兼顾性能、开源协议友好度及国产生态支持。
6. 国内其他代表性事件(7 月)
- 字节跳动(豆包 / Seed):
- 7 月 22 日:Seed 团队发布通用机器人模型 GR-3,强调高泛化、长程任务和柔性物体双臂操作,并同步展示实体机器人 ByteMini[16];
- 7 月 24 日:正式发布端到端同声传译模型 Seed LiveInterpret 2.0,号称延迟与准确率接近人类同传水平,在中英同传上达到 SOTA[17];
- 7 月 31 日:发布 豆包·图像编辑模型 3.0 与 豆包·同声传译模型 2.0,强化多模态与语音翻译产品线[18]。
- 科大讯飞星火 X1 升级:
- 7 月 23 日宣布,7 月 25 日升级上线:深度推理大模型 讯飞星火 X1 升级版,底座多语言能力扩展到 130+ 语种,在教育、医疗等场景进一步落地[19][20]。
- 商汤日日新 6.5 多模态大模型:
- 7 月 27 日,WAIC 大模型论坛 上发布 日日新 V6.5,强调对标 Gemini 2.0 Pro,在多模态理解和生成上持续增强[21]。
三、全球排名与评测:国产模型全面跻身第一梯队
1. 全球 Top10 综合排名(截至 2025 年 7 月)
根据腾讯新闻等整理的 SuperCLUE、Chatbot Arena 等综合评测榜单[1][22]:
| 综合排名 | 模型 | 机构 | 亮点 |
|---|---|---|---|
| 1 | GPT-4.5 | OpenAI | 总分 80.4,32K 上下文,复杂逻辑能力领先 |
| 2 | Claude 3.7 Sonnet | Anthropic | HumanEval 编程 91.2 分,10 万 token 长文解析 |
| 3 | Gemini 2.0(/2.5) | Google DeepMind | 原生多模态,百万级上下文,视频生成突出 |
| 4 | DeepSeek R1 | 深度求索(中国) | 国产综合最优,推理速度提升 3 倍,中文长文本专家 |
| 5 | Qwen2.5-Max | 阿里云(中国) | Chatbot Arena 全球第 7,数学与编程第一 |
| 6 | 文心一言 4.0 | 百度(中国) | MMLU 中文第一,情感识别 92% |
| 7 | LLaMA 3 | Meta | 700 亿参数开源,生态插件丰富 |
| 8 | Doubao-1.5-pro | 字节跳动(中国) | 语音识别和实时交互领先,稀疏 MoE 架构降低成本 |
| 9 | KimiGPT 2.0 | 月之暗面(中国) | 长文本(7.5 万字)与法律条文分析突出 |
| 10 | SenseChat 5.5 | 商汤科技(中国) | 文科生成能力突出,中文 NLG 领先 |
解读要点:
- 前十中,中国模型占 一半以上,且在 数学 / 编程 / 中文长文本 / 情感识别 等细分能力上频繁夺冠;
- 开源权重层面,自 2025 年中起,中国开源模型在 HuggingFace 新增衍生模型中占比超过 60%,正在重塑全球开发者生态结构[23]。
2. SQL 能力与行业细分评测
2025 年 7 月《大模型 SQL 能力排行榜》 发布[24]:
- 新增“大 SQL 转换”“国产数据库转换”等指标,重点评估企业数据库迁移与 SQL 优化能力;
- Claude 3.5 Sonnet、Claude Sonnet 4 首次参评;
- Gemini 2.5 Pro / Flash 转正版本的稳定性与性能得到验证。
对企业 IT 来说,这类评测给出了一个明确信号:
大模型已足以承担数据库迁移、SQL 优化等重资产场景,不再局限于聊天 / 文本生成。
四、政策与治理:7 月成为全球 AI 监管关键时间点
1. 中国:算法备案与大模型应用治理
- 7 月 14 日:中央网信办发布第十二批深度合成服务算法备案信息,全国累计通过备案 3834 款 产品,其中服务提供者 2932 款[25];
- 备案门槛明显提高:对显性 / 隐性标识、训练数据合规性、内容安全责任提出更细要求;
- 备案周期从 1 个月拉长至近 3 个月,企业需要 提前规划产品发布节奏与合规路线。
2. 欧盟:AI Act 实施前夕的“行为准则 + 指南”
- 7 月 10 日:欧盟委员会发布《通用 AI 实践准则》最终版(General-Purpose AI Code of Practice)[26];
- 7 月 17–18 日:发布《通用人工智能行为准则》与《通用 AI 模型提供者指南》[27][28];
- 对 2025 年 8 月 2 日 AI Act 中 GPAI(通用 AI 模型)义务正式生效 做铺垫。
- 包括:训练数据来源披露、尊重知识产权、风险评估与安全测试等。
3. 国际治理趋势
- 新西兰 7 月发布首个国家 AI 战略,强调“宽松监管 + 负责任 AI”并重[29];
- ITU、“人工智能造福人类全球峰会”等发布一系列治理声明,强调开放权重模型的战略价值与风险管理[30];
- 中国在 WAIC 2025 上倡议成立 世界人工智能合作组织,并提出“同球共济”的全球治理愿景[31]。
五、应用与产业落地:WAIC 2025 成为里程碑
1. 行业标杆案例与地方实践
- 《2025 年“人工智能+”行业标杆案例荟萃》发布:
- 从全国 300+ 报送案例中筛选 80 个标杆,覆盖垂直场景、消费产品、安全治理、创新平台与人才发展[32];
- 北京、重庆等城市发布 大模型典型应用案例 / 揭榜挂帅项目,[33][34]
- 明确将 大模型应用落地 作为新质生产力的重要抓手。
2. 具身智能与世界模型
- 2025 年被普遍视作 “具身智能元年”:
- WAIC 发布多款人形机器人与具身智能平台,
- 例如上海“青龙”开源人形机器人、公版具身运动大模型“龙跃”等[35];
- 腾讯 混元 3D 世界模型 1.0 与字节 GR-3,标志着 “大模型 + 机器人 / 3D 世界” 组合走向工程可用。
六、对企业与开发者的实战建议(基于 2025 年 7 月格局)
-
选模型:闭源 vs 开源 vs 国产
- 若重视 极致通用能力 + 英文生态:GPT-4.5 / Claude 3.7 / Gemini 2.0 仍是第一选择;
- 若追求 性价比 + 开源 + 中文场景 + 私有化部署:
- 推理 / Agent:DeepSeek R1、Kimi K2、Qwen3 系列、GLM-4.5、Step 3
- 多模态 / 3D:混元 3D、Step 3、多模态 K2
- 政企 / 金融 / 监管敏感行业:优先选择 已开源 + 已在本地治理语境下验证 的国产模型(Qwen3、GLM-4.5、DeepSeek、星火 X1/1.5 等)。
-
算力与部署
- 大规模在线推理:优先考虑 MoE + FP8 低精度 的最新版本(Qwen3-235B FP8、Kimi K2、Step 3 等);
- 国产算力:重点关注 Step 3 + 模芯生态联盟、DeepSeek + 昇腾等联合方案[10][11][36]。
-
Agent 与业务重构
- 从“直接调用模型 API” → “构建多 Agent 协作系统”:
- 充分利用 ChatGPT Agent / AutoGLM / Qwen3-Coder / 企业级 Agent 平台;
- 对已有 RPA / 工作流:考虑以大模型为“思考与决策核心”,让传统系统只做执行层。
- 从“直接调用模型 API” → “构建多 Agent 协作系统”:
-
合规与安全
- 任何 C 端生成式应用,必须提前评估 算法备案 + 深度合成标识 + 数据来源合法性;
- 若有欧洲业务,需提前按欧盟 AI Act 要求 补齐训练数据可追溯、文档化、风险评估。
七、总结一句话
2025 年 7 月,是全球大模型进入“开源中国年 + Agent 元年 + 多模态 / 具身智能起飞”的关键节点:参数战争已成过去,未来的胜负在于——谁能以更开放的模型、更高效的算力、更可控的治理,把 AI 真正落在产业的每一条链路上。
References
[1] 2025最新全球AI大模型排名 国内外模型动态洗牌 实时更新平台推荐. https://new.qq.com/rain/a/20250702A04XTN00
[2] 我国大模型数量居全球首位. https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452
[3] 阿里通义千问发布Qwen3-Coder及Qwen3-235B-A22B-Instruct-2507等相关报道(多条新闻合并)。 示例:https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml
[4] 阿里千问3推理模型重磅更新,比肩Gemini-2.5 pro、o4-mini. https://www.qbitai.com/2025/07/312955.html
[5] 月之暗面发布并开源Kimi K2模型环球网. https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml
[6] 深夜突袭!万亿参数MoE模型Kimi K2上线即开源. https://www.nbd.com.cn/articles/2025-07-13/3942359.html
[7] 人工智能 - 登顶全球榜首!月之暗面发布新款万亿参数开源大模型 K2. https://segmentfault.com/a/1190000046911552
[8] 月之暗面推出新模型,业内人士:大模型低价竞争策略不会长久. https://www.thepaper.cn/newsDetail_forward_31174576
[9] 继DeepSeek后,又一国内大模型Kimi K2火起来了. https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml
[10] 阶跃星辰发布并将开源新一代多模推理模型 Step 3. https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952
[11] 阶跃星辰发布新一代基础大模型Step 3,联合芯片商组建生态联盟. https://www.jfdaily.com/sgh/detail?id=1616306
[12] 腾讯混元亮相WAIC 2025,发布3D世界模型及系列开源模型. https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552
[13] 腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界模型. https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml
[14] 智谱AI发布GLM-4.5大模型:推理、编码、智能体三重能力原生融合. https://www.doit.com.cn/p/539710.html
[15] “北京造”大模型开源性能全球领先. http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html
[16] 字节跳动发布通用机器人模型GR-3. https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml
[17] 字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0. https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152
[18] 字节豆包大模型日均调用量飙升137倍,最新输入tokens价格... https://www.sohu.com/a/919514745_116132
[19] 科大讯飞:讯飞星火X1升级版模型将于7月25日上线. https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152
[20] 科大讯飞:将于7月25日升级讯飞星火X1. https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml
[21] 商汤发布日日新V6.5多模态大模型. https://36kr.com/newsflashes/3399493302733191
[22] 2025年全球AI大模型综合排名(Top 20). https://juejin.cn/post/7526712797881057321
[23] 斯坦福大学发布研究报告称:中国开放权重模型重塑全球AI格局. https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html
[24] 2025 年 7 月《大模型 SQL 能力排行榜》发布. https://cloud.tencent.com/developer/article/2552858
[25] 老赵聊算法、大模型备案. https://blog.csdn.net/meidaoliha
[26] 欧盟人工智能法案,7月最终版《通用人工智能行为准则》. https://blog.csdn.net/weixin_44799274/article/details/149463006
[27] 欧盟发布《通用人工智能行为准则》. https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648
[28] AI前沿| 全球立法和监管2025年7月速报. https://www.deheheng.com/dongtai/news/34468.html
[29] 2025年7月人工智能大模型领域重大事件盘点. https://blog.csdn.net/yuntongliangda/article/details/149845503
[30] 人工智能推动可持续发展多边合作新格局——2025年联合国可持续发展高级别政治论坛. https://www.sdbdra.cn/newsinfo/8640575.html
[31] 每日一词| 世界人工智能合作组织global AI cooperation organization. https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html
[32] 重磅发布!《2025年“人工智能+”行业标杆案例荟萃》. https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml
[33] 12个“揭榜挂帅”大模型应用需求发布. https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html
[34] 关于公布2025年重庆市人工智能典型应用案例和应用场景需求名单的通知. https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html
[35] 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕. https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html
[36] 大模型推理爆发在即 国产芯片推进超节点布局!算力成本仍待优化. https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml