22 KiB

Raw Permalink Blame History

下面的总结基于你前面给出的搜索结果和已整理的信息，无新增外部检索。

2025年7月大模型版本更新与发展回顾（重点面向中文与全球主流生态）

一、7月整体态势：从“卷参数”到“卷推理 / Agent / 多模态 / 开源”

截至2025年7月下旬，全球已发布大模型总数达 3755 个，中国贡献 1509 个，占比约 40%，位居全球首位[1][2]。
从7月的集中事件看，大模型竞争已经从：

“谁更大” → 向 “谁更会想（推理）”“谁更好用（Agent、应用场景）”“谁更开放（开源生态）” 转变；
中国开源大模型在性能、生态与落地上，实现对闭源阵营的强势追赶甚至局部反超。

7月的技术与产业高潮高度集中在 WAIC 2025（7月26–28日，上海） 期间，各家在此前后一周密集“上新”。

二、重点版本发布与迭代（按厂商 / 阵营梳理）

1. 阿里通义千问 Qwen3 系列：7月“5连发”，补齐语言、推理、代码三条线

关键时间线与版本

7 月 22 日
- 发布 Qwen3-235B-A22B-Instruct-2507-FP8（Non-thinking） 升级版：
  - 长文本上下文扩展到 256K
  - 使用 FP8 低精度，重点提升推理效率与推理成本控制
  - 在多项中文综合基准（GQPA、AIME25 等）中通用能力显著提升[3]
7 月 23 日
- 正式发布并开源 Qwen3-Coder AI 编程大模型：
  - 面向 Agentic Coding / 浏览器使用 / 工具调用 / 基础编码 等多种代码任务
  - 编程能力在开源阵营中登顶，接近甚至逼近 GPT-4.1 / Claude Sonnet 4 等闭源模型[3][4]
7 月 25 日
- 阿里继续开源新一代推理模型（“千问3推理模型”），性能对标 Gemini 2.5 Pro、o4-mini 等，同时保持开源与低成本[4]。
7 月 30–31 日
- 发布 Qwen3-30B-A3B-Instruct-2507 与 Qwen3-30B-A3B-Thinking-2507：
  - 30B MoE 模型，每次激活仅 3B 参数，性能媲美 Gemini 2.5-Flash 与 GPT-4o 等闭源模型[3]
  - 继续支持 256K 长上下文
  - 思考版 / 非思考版配套，便于在成本与推理深度之间灵活取舍

技术与格局意义（可执行解读）

如果你是 企业技术负责人：
- 通用业务对话 + 文档类场景：优先考虑 Non-thinking 版本（FP8 + 256K），性价比极高；
- 需要复杂代码生成 / Agent 编排：可直接基于 Qwen3-Coder 搭建开发者 IDE 助手或自动化脚本生成系统；
- 对隐私 / 安全要求高：7 月版本已经全部开源，可私有化部署。

2. 月之暗面 Kimi K2：万亿参数开源基座重新洗牌全球开源格局

关键事件

7 月 11 日深夜：
- 月之暗面突然发布并同步开源 Kimi K2 模型：
  - 架构：MoE（混合专家）
  - 总参数：1T（万亿级）
  - 激活参数：32B / 320 亿（具体报道有 32B 与 320 亿两种写法，本质为 3X10^10 级别）
  - 发布版本：
    - Kimi-K2-Base：基础预训练版，适合科研、自定义后训练
    - Kimi-K2-Instruct：通用指令微调版，偏实用问答与 Agent 任务[5][6]
多项评测结果：
- SWE Bench Verified（代码）、Tau2（Agent）、AceBench（工具调用） 等公开基准上，K2 均为开源阵营 SOTA[5][6]
- LMArena 等权威排行榜上，Kimi K2 快速登顶全球开源模型榜首[7]
生态反馈：
- Perplexity CEO 等海外开发者公开表示考虑基于 K2 做后训练[8]
- Nature 报道、HuggingFace 下载量在 48 小时内超越大多数同类模型[7][9]

可执行视角

如果你希望 打造高智能 Agent / 代码助手，又要 完全掌控权重与部署：
- Kimi K2 是 2025 年 7 月之后最值得优先试用的开源基座之一；
- 尤其适合：需要复杂工具链调用、多步骤任务规划、跨系统自动操作的企业 Agent 平台；
- 成本维度：MoE + 32B 活跃参数意味着同等算力下可承载更高吞吐，真实 TCO（总拥有成本）优于同规模稠密模型。

3. 阶跃星辰 Step 3：全尺寸原生多模态推理大模型，绑定国产芯片生态

关键事件

7 月 25 日：在 WAIC 2025 前一天的发布会上推出 Step 3：
- 被定位为阶跃星辰“第三代基础大模型 / 主力基座”[10]；
- 特点：
  - 国内首个 万亿参数混合专家模型，总参数量比 Step 1 提升 10 倍；
  - 原生多模态推理：支持文本、图像等多模态输入，强调在“推理时代”做最适合应用的模型；
  - 推理效率：在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%[10]；
  - 兼顾“强智能 + 低成本 + 可开源 + 多模态”四要素[10]。
7 月 31 日：面向全球企业与开发者 开源 Step 3，成为全球最强开源多模态大模型之一[10][11]。
联合多家国内头部芯片 / 平台厂商成立 “模芯生态创新联盟”，重点解决：模型与国产芯片协同优化、算力成本与部署效率[10][11]。

面向企业的选择建议

如果你计划在 国产算力（昇腾、燧原、壁仞等）上大规模推理：
- Step 3 + 模芯生态联盟，是当前“国产大模型 + 国产芯片”中最有代表性的组合之一；
- 适合：金融、工业、视频理解、多模态搜索等需要高吞吐、高并发推理的场景。

4. 腾讯混元：混元 3D 世界模型 1.0，首次把“世界模型”开源到生产可用级

7 月 27 日，WAIC 2025 腾讯论坛：
- 正式发布并开源 混元 3D 世界模型 1.0[12][13]：
  - 业界首个 开源、可沉浸漫游、可交互、可仿真 的 3D 世界生成模型；
  - 支持文本 / 图片输入，几分钟内即可生成 可漫游 3D 虚拟场景，兼容传统 CG 管线[12][13]；
  - 落地方向：游戏开发、VR/AR、智慧城市数字孪生、工业仿真等。
- 同时发布：具身智能开放平台 Tairos（钛螺丝）、智能体开发平台等，构成 “1+3+N” AI 应用全景图[12]。

实际应用启发

如果你在做 游戏、影视虚拟制作、VR、数字孪生：
- 混元 3D 世界模型 1.0 是现阶段少数支持 “世界级别”生成 且已经开源的模型；
- 更适合：希望在自有引擎 / 管线中塞入 3D 生成能力，而不是只用 2D 图像生图模型的团队。

5. 智谱 GLM-4.5：面向 Agent 的旗舰开源大模型

7 月 28 日：智谱发布新一代旗舰模型 GLM-4.5，并在 HuggingFace 与 ModelScope 同步开源，权重采用 MIT 许可证[14][15]：
- 专为 智能体（Agent）应用 打造的基础模型；
- 在 12 项业界主流基准上取得国内领先[14]；
- 推理、代码、智能体三能力原生融合，可直接支撑复杂企业级 Workflows；
- 北京市官方报道认为 GLM-4.5 是“北京造 大模型中开源性能全球领先”的代表[15]。

对选型的现实意义

如果你：
- 更看重 中文生态 + 智谱 Stack（GLM 工具链 + bigmodel 平台）；
- 或希望在 政府 / 金融 / 国企 场景下引入 国产可控 + Agent 能力强 的平台，
- GLM-4.5 是 7 月之后非常有代表性的选择：兼顾性能、开源协议友好度及国产生态支持。

6. 国内其他代表性事件（7 月）

字节跳动（豆包 / Seed）：
- 7 月 22 日：Seed 团队发布通用机器人模型 GR-3，强调高泛化、长程任务和柔性物体双臂操作，并同步展示实体机器人 ByteMini[16]；
- 7 月 24 日：正式发布端到端同声传译模型 Seed LiveInterpret 2.0，号称延迟与准确率接近人类同传水平，在中英同传上达到 SOTA[17]；
- 7 月 31 日：发布 豆包·图像编辑模型 3.0 与 豆包·同声传译模型 2.0，强化多模态与语音翻译产品线[18]。
科大讯飞星火 X1 升级：
- 7 月 23 日宣布，7 月 25 日升级上线：深度推理大模型 讯飞星火 X1 升级版，底座多语言能力扩展到 130+ 语种，在教育、医疗等场景进一步落地[19][20]。
商汤日日新 6.5 多模态大模型：
- 7 月 27 日，WAIC 大模型论坛 上发布 日日新 V6.5，强调对标 Gemini 2.0 Pro，在多模态理解和生成上持续增强[21]。

三、全球排名与评测：国产模型全面跻身第一梯队

1. 全球 Top10 综合排名（截至 2025 年 7 月）

根据腾讯新闻等整理的 SuperCLUE、Chatbot Arena 等综合评测榜单[1][22]：

综合排名	模型	机构	亮点
1	GPT-4.5	OpenAI	总分 80.4，32K 上下文，复杂逻辑能力领先
2	Claude 3.7 Sonnet	Anthropic	HumanEval 编程 91.2 分，10 万 token 长文解析
3	Gemini 2.0（/2.5）	Google DeepMind	原生多模态，百万级上下文，视频生成突出
4	DeepSeek R1	深度求索（中国）	国产综合最优，推理速度提升 3 倍，中文长文本专家
5	Qwen2.5-Max	阿里云（中国）	Chatbot Arena 全球第 7，数学与编程第一
6	文心一言 4.0	百度（中国）	MMLU 中文第一，情感识别 92%
7	LLaMA 3	Meta	700 亿参数开源，生态插件丰富
8	Doubao-1.5-pro	字节跳动（中国）	语音识别和实时交互领先，稀疏 MoE 架构降低成本
9	KimiGPT 2.0	月之暗面（中国）	长文本（7.5 万字）与法律条文分析突出
10	SenseChat 5.5	商汤科技（中国）	文科生成能力突出，中文 NLG 领先

解读要点：

前十中，中国模型占 一半以上，且在 数学 / 编程 / 中文长文本 / 情感识别 等细分能力上频繁夺冠；
开源权重层面，自 2025 年中起，中国开源模型在 HuggingFace 新增衍生模型中占比超过 60%，正在重塑全球开发者生态结构[23]。

2. SQL 能力与行业细分评测

2025 年 7 月《大模型 SQL 能力排行榜》 发布[24]：

新增“大 SQL 转换”“国产数据库转换”等指标，重点评估企业数据库迁移与 SQL 优化能力；
Claude 3.5 Sonnet、Claude Sonnet 4 首次参评；
Gemini 2.5 Pro / Flash 转正版本的稳定性与性能得到验证。

对企业 IT 来说，这类评测给出了一个明确信号：

大模型已足以承担数据库迁移、SQL 优化等重资产场景，不再局限于聊天 / 文本生成。

四、政策与治理：7 月成为全球 AI 监管关键时间点

1. 中国：算法备案与大模型应用治理

7 月 14 日：中央网信办发布第十二批深度合成服务算法备案信息，全国累计通过备案 3834 款 产品，其中服务提供者 2932 款[25]；
- 备案门槛明显提高：对显性 / 隐性标识、训练数据合规性、内容安全责任提出更细要求；
- 备案周期从 1 个月拉长至近 3 个月，企业需要 提前规划产品发布节奏与合规路线。

2. 欧盟：AI Act 实施前夕的“行为准则 + 指南”

7 月 10 日：欧盟委员会发布《通用 AI 实践准则》最终版（General-Purpose AI Code of Practice）[26]；
7 月 17–18 日：发布《通用人工智能行为准则》与《通用 AI 模型提供者指南》[27][28]；
对 2025 年 8 月 2 日 AI Act 中 GPAI（通用 AI 模型）义务正式生效 做铺垫。
- 包括：训练数据来源披露、尊重知识产权、风险评估与安全测试等。

3. 国际治理趋势

新西兰 7 月发布首个国家 AI 战略，强调“宽松监管 + 负责任 AI”并重[29]；
ITU、“人工智能造福人类全球峰会”等发布一系列治理声明，强调开放权重模型的战略价值与风险管理[30]；
中国在 WAIC 2025 上倡议成立 世界人工智能合作组织，并提出“同球共济”的全球治理愿景[31]。

五、应用与产业落地：WAIC 2025 成为里程碑

1. 行业标杆案例与地方实践

《2025 年“人工智能+”行业标杆案例荟萃》发布：
- 从全国 300+ 报送案例中筛选 80 个标杆，覆盖垂直场景、消费产品、安全治理、创新平台与人才发展[32]；
北京、重庆等城市发布 大模型典型应用案例 / 揭榜挂帅项目，[33][34]
- 明确将 大模型应用落地 作为新质生产力的重要抓手。

2. 具身智能与世界模型

2025 年被普遍视作 “具身智能元年”：
- WAIC 发布多款人形机器人与具身智能平台，
- 例如上海“青龙”开源人形机器人、公版具身运动大模型“龙跃”等[35]；
腾讯 混元 3D 世界模型 1.0 与字节 GR-3，标志着 “大模型 + 机器人 / 3D 世界” 组合走向工程可用。

六、对企业与开发者的实战建议（基于 2025 年 7 月格局）

选模型：闭源 vs 开源 vs 国产
- 若重视 极致通用能力 + 英文生态：GPT-4.5 / Claude 3.7 / Gemini 2.0 仍是第一选择；
- 若追求 性价比 + 开源 + 中文场景 + 私有化部署：
  - 推理 / Agent：DeepSeek R1、Kimi K2、Qwen3 系列、GLM-4.5、Step 3
  - 多模态 / 3D：混元 3D、Step 3、多模态 K2
- 政企 / 金融 / 监管敏感行业：优先选择 已开源 + 已在本地治理语境下验证 的国产模型（Qwen3、GLM-4.5、DeepSeek、星火 X1/1.5 等）。
算力与部署
- 大规模在线推理：优先考虑 MoE + FP8 低精度 的最新版本（Qwen3-235B FP8、Kimi K2、Step 3 等）；
- 国产算力：重点关注 Step 3 + 模芯生态联盟、DeepSeek + 昇腾等联合方案[10][11][36]。
Agent 与业务重构
- 从“直接调用模型 API” → “构建多 Agent 协作系统”：
  - 充分利用 ChatGPT Agent / AutoGLM / Qwen3-Coder / 企业级 Agent 平台；
- 对已有 RPA / 工作流：考虑以大模型为“思考与决策核心”，让传统系统只做执行层。
合规与安全
- 任何 C 端生成式应用，必须提前评估 算法备案 + 深度合成标识 + 数据来源合法性；
- 若有欧洲业务，需提前按欧盟 AI Act 要求 补齐训练数据可追溯、文档化、风险评估。

七、总结一句话

2025 年 7 月，是全球大模型进入“开源中国年 + Agent 元年 + 多模态 / 具身智能起飞”的关键节点：参数战争已成过去，未来的胜负在于——谁能以更开放的模型、更高效的算力、更可控的治理，把 AI 真正落在产业的每一条链路上。

References

[1] 2025最新全球AI大模型排名国内外模型动态洗牌实时更新平台推荐. https://new.qq.com/rain/a/20250702A04XTN00
[2] 我国大模型数量居全球首位. https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452
[3] 阿里通义千问发布Qwen3-Coder及Qwen3-235B-A22B-Instruct-2507等相关报道（多条新闻合并）。示例：https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml
[4] 阿里千问3推理模型重磅更新，比肩Gemini-2.5 pro、o4-mini. https://www.qbitai.com/2025/07/312955.html
[5] 月之暗面发布并开源Kimi K2模型环球网. https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml
[6] 深夜突袭!万亿参数MoE模型Kimi K2上线即开源. https://www.nbd.com.cn/articles/2025-07-13/3942359.html
[7] 人工智能 - 登顶全球榜首!月之暗面发布新款万亿参数开源大模型 K2. https://segmentfault.com/a/1190000046911552
[8] 月之暗面推出新模型,业内人士:大模型低价竞争策略不会长久. https://www.thepaper.cn/newsDetail_forward_31174576
[9] 继DeepSeek后，又一国内大模型Kimi K2火起来了. https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml
[10] 阶跃星辰发布并将开源新一代多模推理模型 Step 3. https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952
[11] 阶跃星辰发布新一代基础大模型Step 3，联合芯片商组建生态联盟. https://www.jfdaily.com/sgh/detail?id=1616306
[12] 腾讯混元亮相WAIC 2025，发布3D世界模型及系列开源模型. https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552
[13] 腾讯发布混元3D世界模型1.0：首个支持物理仿真的开源世界模型. https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml
[14] 智谱AI发布GLM-4.5大模型：推理、编码、智能体三重能力原生融合. https://www.doit.com.cn/p/539710.html
[15] “北京造”大模型开源性能全球领先. http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html
[16] 字节跳动发布通用机器人模型GR-3. https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml
[17] 字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0. https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152
[18] 字节豆包大模型日均调用量飙升137倍，最新输入tokens价格... https://www.sohu.com/a/919514745_116132
[19] 科大讯飞:讯飞星火X1升级版模型将于7月25日上线. https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152
[20] 科大讯飞：将于7月25日升级讯飞星火X1. https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml
[21] 商汤发布日日新V6.5多模态大模型. https://36kr.com/newsflashes/3399493302733191
[22] 2025年全球AI大模型综合排名（Top 20）. https://juejin.cn/post/7526712797881057321
[23] 斯坦福大学发布研究报告称：中国开放权重模型重塑全球AI格局. https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html
[24] 2025 年 7 月《大模型 SQL 能力排行榜》发布. https://cloud.tencent.com/developer/article/2552858
[25] 老赵聊算法、大模型备案. https://blog.csdn.net/meidaoliha
[26] 欧盟人工智能法案,7月最终版《通用人工智能行为准则》. https://blog.csdn.net/weixin_44799274/article/details/149463006
[27] 欧盟发布《通用人工智能行为准则》. https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648
[28] AI前沿| 全球立法和监管2025年7月速报. https://www.deheheng.com/dongtai/news/34468.html
[29] 2025年7月人工智能大模型领域重大事件盘点. https://blog.csdn.net/yuntongliangda/article/details/149845503
[30] 人工智能推动可持续发展多边合作新格局——2025年联合国可持续发展高级别政治论坛. https://www.sdbdra.cn/newsinfo/8640575.html
[31] 每日一词| 世界人工智能合作组织global AI cooperation organization. https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html
[32] 重磅发布！《2025年“人工智能+”行业标杆案例荟萃》. https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml
[33] 12个“揭榜挂帅”大模型应用需求发布. https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html
[34] 关于公布2025年重庆市人工智能典型应用案例和应用场景需求名单的通知. https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html
[35] 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕. https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html
[36] 大模型推理爆发在即国产芯片推进超节点布局！算力成本仍待优化. https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml

22 KiB Raw Permalink Blame History Unescape Escape

2025年7月大模型版本更新与发展回顾（重点面向中文与全球主流生态）

一、7月整体态势：从“卷参数”到“卷推理 / Agent / 多模态 / 开源”

二、重点版本发布与迭代（按厂商 / 阵营梳理）

1. 阿里通义千问 Qwen3 系列：7月“5连发”，补齐语言、推理、代码三条线

关键时间线与版本

技术与格局意义（可执行解读）

2. 月之暗面 Kimi K2：万亿参数开源基座重新洗牌全球开源格局

关键事件

可执行视角

3. 阶跃星辰 Step 3：全尺寸原生多模态推理大模型，绑定国产芯片生态

关键事件

面向企业的选择建议

4. 腾讯混元：混元 3D 世界模型 1.0，首次把“世界模型”开源到生产可用级

实际应用启发

5. 智谱 GLM-4.5：面向 Agent 的旗舰开源大模型

对选型的现实意义

6. 国内其他代表性事件（7 月）

三、全球排名与评测：国产模型全面跻身第一梯队

1. 全球 Top10 综合排名（截至 2025 年 7 月）

2. SQL 能力与行业细分评测

四、政策与治理：7 月成为全球 AI 监管关键时间点

1. 中国：算法备案与大模型应用治理

2. 欧盟：AI Act 实施前夕的“行为准则 + 指南”

3. 国际治理趋势

五、应用与产业落地：WAIC 2025 成为里程碑

1. 行业标杆案例与地方实践

2. 具身智能与世界模型

六、对企业与开发者的实战建议（基于 2025 年 7 月格局）

七、总结一句话

References

22 KiB

Raw Permalink Blame History