ai-doc/2025年ai总结/7月.md

22 KiB
Raw Permalink Blame History

下面的总结基于你前面给出的搜索结果和已整理的信息,无新增外部检索。


2025年7月大模型版本更新与发展回顾重点面向中文与全球主流生态

一、7月整体态势从“卷参数”到“卷推理 / Agent / 多模态 / 开源”

截至2025年7月下旬全球已发布大模型总数达 3755 个,中国贡献 1509 个,占比约 40%,位居全球首位[1][2]。
从7月的集中事件看大模型竞争已经从

  • “谁更大” → 向 “谁更会想推理”“谁更好用Agent、应用场景”“谁更开放开源生态 转变;
  • 中国开源大模型在性能、生态与落地上,实现对闭源阵营的强势追赶甚至局部反超。

7月的技术与产业高潮高度集中在 WAIC 20257月2628日上海 期间,各家在此前后一周密集“上新”。


二、重点版本发布与迭代(按厂商 / 阵营梳理)

1. 阿里通义千问 Qwen3 系列7月“5连发”补齐语言、推理、代码三条线

关键时间线与版本

  • 7 月 22 日
    • 发布 Qwen3-235B-A22B-Instruct-2507-FP8Non-thinking 升级版:
      • 长文本上下文扩展到 256K
      • 使用 FP8 低精度,重点提升推理效率与推理成本控制
      • 在多项中文综合基准GQPA、AIME25 等)中通用能力显著提升[3]
  • 7 月 23 日
    • 正式发布并开源 Qwen3-Coder AI 编程大模型:
      • 面向 Agentic Coding / 浏览器使用 / 工具调用 / 基础编码 等多种代码任务
      • 编程能力在开源阵营中登顶,接近甚至逼近 GPT-4.1 / Claude Sonnet 4 等闭源模型[3][4]
  • 7 月 25 日
    • 阿里继续开源新一代推理模型“千问3推理模型”性能对标 Gemini 2.5 Pro、o4-mini 等,同时保持开源与低成本[4]。
  • 7 月 3031 日
    • 发布 Qwen3-30B-A3B-Instruct-2507Qwen3-30B-A3B-Thinking-2507
      • 30B MoE 模型,每次激活仅 3B 参数,性能媲美 Gemini 2.5-Flash 与 GPT-4o 等闭源模型[3]
      • 继续支持 256K 长上下文
      • 思考版 / 非思考版配套,便于在成本与推理深度之间灵活取舍

技术与格局意义(可执行解读)

  • 如果你是 企业技术负责人
    • 通用业务对话 + 文档类场景:优先考虑 Non-thinking 版本FP8 + 256K性价比极高
    • 需要复杂代码生成 / Agent 编排:可直接基于 Qwen3-Coder 搭建开发者 IDE 助手或自动化脚本生成系统;
    • 对隐私 / 安全要求高7 月版本已经全部开源,可私有化部署。

2. 月之暗面 Kimi K2万亿参数开源基座重新洗牌全球开源格局

关键事件

  • 7 月 11 日深夜
    • 月之暗面突然发布并同步开源 Kimi K2 模型:
      • 架构:MoE混合专家
      • 总参数:1T万亿级
      • 激活参数:32B / 320 亿(具体报道有 32B 与 320 亿两种写法,本质为 3X10^10 级别)
      • 发布版本:
        • Kimi-K2-Base:基础预训练版,适合科研、自定义后训练
        • Kimi-K2-Instruct:通用指令微调版,偏实用问答与 Agent 任务[5][6]
  • 多项评测结果:
    • SWE Bench Verified代码Tau2AgentAceBench工具调用 等公开基准上K2 均为开源阵营 SOTA[5][6]
    • LMArena 等权威排行榜上Kimi K2 快速登顶全球开源模型榜首[7]
  • 生态反馈:
    • Perplexity CEO 等海外开发者公开表示考虑基于 K2 做后训练[8]
    • Nature 报道、HuggingFace 下载量在 48 小时内超越大多数同类模型[7][9]

可执行视角

  • 如果你希望 打造高智能 Agent / 代码助手,又要 完全掌控权重与部署
    • Kimi K2 是 2025 年 7 月之后最值得优先试用的开源基座之一;
    • 尤其适合:需要复杂工具链调用、多步骤任务规划、跨系统自动操作的企业 Agent 平台;
    • 成本维度MoE + 32B 活跃参数意味着同等算力下可承载更高吞吐,真实 TCO总拥有成本优于同规模稠密模型。

3. 阶跃星辰 Step 3全尺寸原生多模态推理大模型绑定国产芯片生态

关键事件

  • 7 月 25 日:在 WAIC 2025 前一天的发布会上推出 Step 3
    • 被定位为阶跃星辰“第三代基础大模型 / 主力基座”[10]
    • 特点:
      • 国内首个 万亿参数混合专家模型,总参数量比 Step 1 提升 10 倍;
      • 原生多模态推理:支持文本、图像等多模态输入,强调在“推理时代”做最适合应用的模型;
      • 推理效率:在国产芯片上的推理效率最高可达 DeepSeek-R1 的 300%[10]
      • 兼顾“强智能 + 低成本 + 可开源 + 多模态”四要素[10]。
  • 7 月 31 日:面向全球企业与开发者 开源 Step 3,成为全球最强开源多模态大模型之一[10][11]。
  • 联合多家国内头部芯片 / 平台厂商成立 “模芯生态创新联盟”,重点解决:模型与国产芯片协同优化、算力成本与部署效率[10][11]。

面向企业的选择建议

  • 如果你计划在 国产算力(昇腾、燧原、壁仞等)上大规模推理
    • Step 3 + 模芯生态联盟,是当前“国产大模型 + 国产芯片”中最有代表性的组合之一;
    • 适合:金融、工业、视频理解、多模态搜索等需要高吞吐、高并发推理的场景。

4. 腾讯混元:混元 3D 世界模型 1.0,首次把“世界模型”开源到生产可用级

  • 7 月 27 日WAIC 2025 腾讯论坛
    • 正式发布并开源 混元 3D 世界模型 1.0[12][13]
      • 业界首个 开源、可沉浸漫游、可交互、可仿真 的 3D 世界生成模型;
      • 支持文本 / 图片输入,几分钟内即可生成 可漫游 3D 虚拟场景,兼容传统 CG 管线[12][13]
      • 落地方向游戏开发、VR/AR、智慧城市数字孪生、工业仿真等。
    • 同时发布:具身智能开放平台 Tairos钛螺丝、智能体开发平台等,构成 “1+3+N” AI 应用全景图[12]。

实际应用启发

  • 如果你在做 游戏、影视虚拟制作、VR、数字孪生
    • 混元 3D 世界模型 1.0 是现阶段少数支持 “世界级别”生成 且已经开源的模型;
    • 更适合:希望在自有引擎 / 管线中塞入 3D 生成能力,而不是只用 2D 图像生图模型的团队。

5. 智谱 GLM-4.5:面向 Agent 的旗舰开源大模型

  • 7 月 28 日:智谱发布新一代旗舰模型 GLM-4.5,并在 HuggingFace 与 ModelScope 同步开源,权重采用 MIT 许可证[14][15]
    • 专为 智能体Agent应用 打造的基础模型;
    • 在 12 项业界主流基准上取得国内领先[14]
    • 推理、代码、智能体三能力原生融合,可直接支撑复杂企业级 Workflows
    • 北京市官方报道认为 GLM-4.5 是“北京造 大模型中开源性能全球领先”的代表[15]。

对选型的现实意义

  • 如果你:
    • 更看重 中文生态 + 智谱 StackGLM 工具链 + bigmodel 平台)
    • 或希望在 政府 / 金融 / 国企 场景下引入 国产可控 + Agent 能力强 的平台,
    • GLM-4.5 是 7 月之后非常有代表性的选择:兼顾性能、开源协议友好度及国产生态支持。

6. 国内其他代表性事件7 月)

  • 字节跳动(豆包 / Seed
    • 7 月 22 日Seed 团队发布通用机器人模型 GR-3,强调高泛化、长程任务和柔性物体双臂操作,并同步展示实体机器人 ByteMini[16]
    • 7 月 24 日:正式发布端到端同声传译模型 Seed LiveInterpret 2.0,号称延迟与准确率接近人类同传水平,在中英同传上达到 SOTA[17]
    • 7 月 31 日:发布 豆包·图像编辑模型 3.0豆包·同声传译模型 2.0,强化多模态与语音翻译产品线[18]。
  • 科大讯飞星火 X1 升级
    • 7 月 23 日宣布7 月 25 日升级上线:深度推理大模型 讯飞星火 X1 升级版,底座多语言能力扩展到 130+ 语种,在教育、医疗等场景进一步落地[19][20]。
  • 商汤日日新 6.5 多模态大模型
    • 7 月 27 日WAIC 大模型论坛 上发布 日日新 V6.5,强调对标 Gemini 2.0 Pro在多模态理解和生成上持续增强[21]。

三、全球排名与评测:国产模型全面跻身第一梯队

1. 全球 Top10 综合排名(截至 2025 年 7 月)

根据腾讯新闻等整理的 SuperCLUE、Chatbot Arena 等综合评测榜单[1][22]

综合排名 模型 机构 亮点
1 GPT-4.5 OpenAI 总分 80.432K 上下文,复杂逻辑能力领先
2 Claude 3.7 Sonnet Anthropic HumanEval 编程 91.2 分10 万 token 长文解析
3 Gemini 2.0/2.5 Google DeepMind 原生多模态,百万级上下文,视频生成突出
4 DeepSeek R1 深度求索(中国) 国产综合最优,推理速度提升 3 倍,中文长文本专家
5 Qwen2.5-Max 阿里云(中国) Chatbot Arena 全球第 7数学与编程第一
6 文心一言 4.0 百度(中国) MMLU 中文第一,情感识别 92%
7 LLaMA 3 Meta 700 亿参数开源,生态插件丰富
8 Doubao-1.5-pro 字节跳动(中国) 语音识别和实时交互领先,稀疏 MoE 架构降低成本
9 KimiGPT 2.0 月之暗面(中国) 长文本7.5 万字)与法律条文分析突出
10 SenseChat 5.5 商汤科技(中国) 文科生成能力突出,中文 NLG 领先

解读要点

  • 前十中,中国模型占 一半以上,且在 数学 / 编程 / 中文长文本 / 情感识别 等细分能力上频繁夺冠;
  • 开源权重层面,自 2025 年中起,中国开源模型在 HuggingFace 新增衍生模型中占比超过 60%,正在重塑全球开发者生态结构[23]。

2. SQL 能力与行业细分评测

2025 年 7 月《大模型 SQL 能力排行榜》 发布[24]

  • 新增“大 SQL 转换”“国产数据库转换”等指标,重点评估企业数据库迁移与 SQL 优化能力;
  • Claude 3.5 Sonnet、Claude Sonnet 4 首次参评;
  • Gemini 2.5 Pro / Flash 转正版本的稳定性与性能得到验证。

对企业 IT 来说,这类评测给出了一个明确信号:

大模型已足以承担数据库迁移、SQL 优化等重资产场景,不再局限于聊天 / 文本生成。


四、政策与治理7 月成为全球 AI 监管关键时间点

1. 中国:算法备案与大模型应用治理

  • 7 月 14 日:中央网信办发布第十二批深度合成服务算法备案信息,全国累计通过备案 3834 款 产品,其中服务提供者 2932 款[25]
    • 备案门槛明显提高:对显性 / 隐性标识、训练数据合规性、内容安全责任提出更细要求;
    • 备案周期从 1 个月拉长至近 3 个月,企业需要 提前规划产品发布节奏与合规路线

2. 欧盟AI Act 实施前夕的“行为准则 + 指南”

  • 7 月 10 日:欧盟委员会发布《通用 AI 实践准则》最终版General-Purpose AI Code of Practice[26]
  • 7 月 1718 日:发布《通用人工智能行为准则》与《通用 AI 模型提供者指南》[27][28]
  • 对 2025 年 8 月 2 日 AI Act 中 GPAI通用 AI 模型)义务正式生效 做铺垫。
    • 包括:训练数据来源披露、尊重知识产权、风险评估与安全测试等。

3. 国际治理趋势

  • 新西兰 7 月发布首个国家 AI 战略,强调“宽松监管 + 负责任 AI”并重[29]
  • ITU、“人工智能造福人类全球峰会”等发布一系列治理声明强调开放权重模型的战略价值与风险管理[30]
  • 中国在 WAIC 2025 上倡议成立 世界人工智能合作组织,并提出“同球共济”的全球治理愿景[31]。

五、应用与产业落地WAIC 2025 成为里程碑

1. 行业标杆案例与地方实践

  • 《2025 年“人工智能+”行业标杆案例荟萃》发布
    • 从全国 300+ 报送案例中筛选 80 个标杆,覆盖垂直场景、消费产品、安全治理、创新平台与人才发展[32]
  • 北京、重庆等城市发布 大模型典型应用案例 / 揭榜挂帅项目[33][34]
    • 明确将 大模型应用落地 作为新质生产力的重要抓手。

2. 具身智能与世界模型

  • 2025 年被普遍视作 “具身智能元年”
    • WAIC 发布多款人形机器人与具身智能平台,
    • 例如上海“青龙”开源人形机器人、公版具身运动大模型“龙跃”等[35]
  • 腾讯 混元 3D 世界模型 1.0 与字节 GR-3,标志着 “大模型 + 机器人 / 3D 世界” 组合走向工程可用。

六、对企业与开发者的实战建议(基于 2025 年 7 月格局)

  1. 选模型:闭源 vs 开源 vs 国产

    • 若重视 极致通用能力 + 英文生态GPT-4.5 / Claude 3.7 / Gemini 2.0 仍是第一选择;
    • 若追求 性价比 + 开源 + 中文场景 + 私有化部署
      • 推理 / AgentDeepSeek R1、Kimi K2、Qwen3 系列、GLM-4.5、Step 3
      • 多模态 / 3D混元 3D、Step 3、多模态 K2
    • 政企 / 金融 / 监管敏感行业:优先选择 已开源 + 已在本地治理语境下验证 的国产模型Qwen3、GLM-4.5、DeepSeek、星火 X1/1.5 等)。
  2. 算力与部署

    • 大规模在线推理:优先考虑 MoE + FP8 低精度 的最新版本Qwen3-235B FP8、Kimi K2、Step 3 等);
    • 国产算力:重点关注 Step 3 + 模芯生态联盟、DeepSeek + 昇腾等联合方案[10][11][36]。
  3. Agent 与业务重构

    • 从“直接调用模型 API” → “构建多 Agent 协作系统”:
      • 充分利用 ChatGPT Agent / AutoGLM / Qwen3-Coder / 企业级 Agent 平台;
    • 对已有 RPA / 工作流:考虑以大模型为“思考与决策核心”,让传统系统只做执行层。
  4. 合规与安全

    • 任何 C 端生成式应用,必须提前评估 算法备案 + 深度合成标识 + 数据来源合法性
    • 若有欧洲业务,需提前按欧盟 AI Act 要求 补齐训练数据可追溯、文档化、风险评估

七、总结一句话

2025 年 7 月,是全球大模型进入“开源中国年 + Agent 元年 + 多模态 / 具身智能起飞”的关键节点:参数战争已成过去,未来的胜负在于——谁能以更开放的模型、更高效的算力、更可控的治理,把 AI 真正落在产业的每一条链路上。


References

[1] 2025最新全球AI大模型排名 国内外模型动态洗牌 实时更新平台推荐. https://new.qq.com/rain/a/20250702A04XTN00
[2] 我国大模型数量居全球首位. https://so.html5.qq.com/page/real/search_news?docid=70000021_0296886d9eb60452
[3] 阿里通义千问发布Qwen3-Coder及Qwen3-235B-A22B-Instruct-2507等相关报道多条新闻合并。 示例:https://finance.sina.com.cn/tech/2025-07-22/doc-infhictc4831104.shtml
[4] 阿里千问3推理模型重磅更新比肩Gemini-2.5 pro、o4-mini. https://www.qbitai.com/2025/07/312955.html
[5] 月之暗面发布并开源Kimi K2模型环球网. https://finance.sina.com.cn/stock/t/2025-07-12/doc-inffeqsp1882231.shtml
[6] 深夜突袭!万亿参数MoE模型Kimi K2上线即开源. https://www.nbd.com.cn/articles/2025-07-13/3942359.html
[7] 人工智能 - 登顶全球榜首!月之暗面发布新款万亿参数开源大模型 K2. https://segmentfault.com/a/1190000046911552
[8] 月之暗面推出新模型,业内人士:大模型低价竞争策略不会长久. https://www.thepaper.cn/newsDetail_forward_31174576
[9] 继DeepSeek后又一国内大模型Kimi K2火起来了. https://finance.sina.com.cn/roll/2025-07-18/doc-inffwchx6638446.shtml
[10] 阶跃星辰发布并将开源新一代多模推理模型 Step 3. https://so.html5.qq.com/page/real/search_news?docid=70000021_2606883602d41952
[11] 阶跃星辰发布新一代基础大模型Step 3联合芯片商组建生态联盟. https://www.jfdaily.com/sgh/detail?id=1616306
[12] 腾讯混元亮相WAIC 2025发布3D世界模型及系列开源模型. https://so.html5.qq.com/page/real/search_news?docid=70000021_1706885a0bf18552
[13] 腾讯发布混元3D世界模型1.0:首个支持物理仿真的开源世界模型. https://finance.sina.com.cn/tech/csj/2025-07-30/doc-infifzss8282961.shtml
[14] 智谱AI发布GLM-4.5大模型:推理、编码、智能体三重能力原生融合. https://www.doit.com.cn/p/539710.html
[15] “北京造”大模型开源性能全球领先. http://bj.people.com.cn/n2/2025/0731/c349239-41308369.html
[16] 字节跳动发布通用机器人模型GR-3. https://finance.sina.com.cn/jjxw/2025-07-23/doc-infhmnxz3897366.shtml
[17] 字节跳动发布端到端同声传译模型Seed LiveInterpret 2.0. https://so.html5.qq.com/page/real/search_news?docid=70000021_1866881c1ae00152
[18] 字节豆包大模型日均调用量飙升137倍最新输入tokens价格... https://www.sohu.com/a/919514745_116132
[19] 科大讯飞:讯飞星火X1升级版模型将于7月25日上线. https://so.html5.qq.com/page/real/search_news?docid=70000021_76868809ea689152
[20] 科大讯飞将于7月25日升级讯飞星火X1. https://finance.sina.com.cn/tech/2025-07-23/doc-infhncvq2981290.shtml
[21] 商汤发布日日新V6.5多模态大模型. https://36kr.com/newsflashes/3399493302733191
[22] 2025年全球AI大模型综合排名Top 20. https://juejin.cn/post/7526712797881057321
[23] 斯坦福大学发布研究报告称中国开放权重模型重塑全球AI格局. https://www.stdaily.com/web/gdxw/2025-12/26/content_453774.html
[24] 2025 年 7 月《大模型 SQL 能力排行榜》发布. https://cloud.tencent.com/developer/article/2552858
[25] 老赵聊算法、大模型备案. https://blog.csdn.net/meidaoliha
[26] 欧盟人工智能法案,7月最终版《通用人工智能行为准则》. https://blog.csdn.net/weixin_44799274/article/details/149463006
[27] 欧盟发布《通用人工智能行为准则》. https://cclp.sjtu.edu.cn/Show.aspx?info_lb=672&info_id=5806&flag=648
[28] AI前沿| 全球立法和监管2025年7月速报. https://www.deheheng.com/dongtai/news/34468.html
[29] 2025年7月人工智能大模型领域重大事件盘点. https://blog.csdn.net/yuntongliangda/article/details/149845503
[30] 人工智能推动可持续发展多边合作新格局——2025年联合国可持续发展高级别政治论坛. https://www.sdbdra.cn/newsinfo/8640575.html
[31] 每日一词| 世界人工智能合作组织global AI cooperation organization. https://cn.chinadaily.com.cn/a/202507/31/WS688b30e4a310a07bb590b419.html
[32] 重磅发布《2025年“人工智能+”行业标杆案例荟萃》. https://finance.sina.com.cn/tech/roll/2025-07-28/doc-infhziex0197488.shtml
[33] 12个“揭榜挂帅”大模型应用需求发布. https://kw.beijing.gov.cn/xwdt/kcyx/xwdtshgg/202507/t20250704_4141356.html
[34] 关于公布2025年重庆市人工智能典型应用案例和应用场景需求名单的通知. https://jjxxw.cq.gov.cn/zwgk_213/zcwj/qtwj/202507/t20250711_14807688.html
[35] 智能时代,同球共济!2025世界人工智能大会将于7月26日启幕. https://sheitc.sh.gov.cn/zxxx/20250711/cc2e2c9cd3fb4a7083d456b3d68568d9.html
[36] 大模型推理爆发在即 国产芯片推进超节点布局!算力成本仍待优化. https://finance.sina.com.cn/stock/t/2025-07-29/doc-infiavhe9497431.shtml