ai-doc/2025年ai总结/9月.md

23 KiB
Raw Blame History

2025年9月大模型版本发布与发展回顾总结

下文基于你给出的时间点2025年9月和已经收集到的公开信息分成两部分
12025年9月左右主要大模型版本与产品发布梳理
2结合9月各类评测与产业动态对阶段性发展做一次回顾总结。


一、2025年9月重点发布与版本更新梳理

1. 国内通用大模型头部厂商

1阿里巴巴通义千问Qwen 系列)

1Qwen3-Max-Preview 与 Qwen3-Max 系列9月上旬+云栖大会)

  • 时间:
    • 9月56日左右Qwen3-Max-Preview (Instruct) 预览版上线,被称为“迄今为止规模最大模型”,参数量超 1 万亿。[1]
    • 9月24日云栖大会发布会确认Qwen3-Max旗舰模型正式亮相,性能宣称超越 GPT5、Claude Opus 4跻身“全球前三”。[1][2]
  • 关键特性:
    • 混合专家MoE架构极大提升推理性能与性价比。
    • 在 SuperCLUE 等中文评测、数学推理、代码、指令遵循上获得头部成绩(具体分数在后文评测部分)。
    • 提供指令版Instruct、多模态版等多形态通过阿里云 API 与 Qwen Chat 对外开放。

2Qwen3-ASR-Flash 语音识别模型9月9日[3]

  • 基于 Qwen3 基座,融合海量多模态与数千万小时 ASR 语料训练。
  • 主要亮点:
    • 高精度 + 强鲁棒性(适应嘈杂环境)。
    • 支持多语言识别和个性化声纹 / 词表定制
    • 对接企业语音客服、会议记录、车载等场景。

3Qwen3-Omni 原生全模态大模型9月26日云栖大会[4]

  • 支持文本、图像、音频等全模态输入输出,强调“预训练全模态不降智”。
  • 在 36 项音频/音视频基准中获得 32 项开源 SOTA、22 项总评 SOTA对标 Gemini2.5 Pro、GPT4o 等闭源强模型。
  • 为通义听悟、通义万相等一系列 AI 应用提供底座。

小结9月对通义来说从「大而强」到「全模态 + 全栈」的集中冲刺月:一边推出万亿级 Qwen3Max冲刺通用能力榜首一边补齐 ASR、Omni 等多模态短板,整体形成文本+图像+音频的统一家族。


2百度文心ERNIE / 文心 X 系列)

文心大模型 X1.1 深度思考模型9月9日 WAVE SUMMIT 2025[5][6]

  • 基于文心 4.5 深度微调的推理向模型 X1 的升级版。
  • 相比 X1在官方披露的指标上有明显跃升[6]
    • 事实性提升:+34.8%
    • 指令遵循:+12.5%
    • 智能体Agent能力+9.6%
  • 能力侧重:
    • 更可靠的事实回答、严谨的长链推理,适合问答、知识库检索。
    • 优化多步骤任务规划和工具调用,面向“文心 Agent”和行业应用。
  • 部署:
    • 已在文心一言官网、文小言 APP对C端开放。
    • 百度智能云千帆平台对企业和开发者开放 API支持深度接入业务流程。[5]

小结:百度 9 月主推“深度思考、强事实、强 Agent”文心 X1.1 标志着其从“通用聊天”走向“可托付的业务智能体”的再进阶。


3腾讯混元Hunyuan 系列)

1混元 3D 3.0 模型9月16日 腾讯全球数字生态大会)[7][8]

  • 建模精度相较前代提升 3 倍,几何分辨率达 1536³,支持 36 亿体素超高清建模。
  • 针对人脸雕刻/真人手办建模等难题做了专项突破:能在高保真还原脸部细节的同时,保持拓扑与渲染友好性。[7]
  • 集成于“混元 3D AI”“混元 3D Studio”工具链中为游戏、美术、文创等 3D 内容生产提供底座。

2混元图像 3.0 开源9月28日[9]

  • 原生多模态图像生成模型,参数约 80B为首个开源工业级原生多模态生图模型。
  • 优势:
    • 支持长文本提示(上千 token解析复杂语义与布局。
    • 对真实感、构图、文字理解均进行优化,号称效果可对标头部闭源模型。
  • 完全开源给开发者,在 AIGC、广告、游戏美术等场景加速落地。

小结9月腾讯混元更偏重视觉与 3D 世界建模,将“大模型”从纯文本推理扩展到虚拟世界构建,围绕游戏与数字内容生态深耕。


4字节跳动豆包与 Seed 团队

1Seedream 4.0 图像创作模型9月911日[10]

  • 支持文生图、图像编辑、多图参考,多模态生图质量、速度、可控性都达到业内领先。
  • 已集成到 豆包 App、即梦 AI、扣子平台,个人用户可免费体验;企业通过火山引擎 API 使用。
  • 在 OCR、细节保持、多图风格一致性等方面做了专项优化能够支撑商业级设计与生产。

2豆包大模型 1.6vision9月30日[11]

  • 豆包家族首个具备工具调用能力的视觉深度思考模型
  • 重点能力:
    • 多模态理解 + 推理:对图表、截图、扫描件等复杂视觉信息有更强解析能力。
    • 内置工具调用(如 OCR、检索、计算模块支持更复杂的视觉问答与工作流。

小结:字节在 9 月把「豆包 = 文本+多模态」这条路走得更稳Seedream 4.0 + 1.6vision 的组合,使其在图片创作与视觉理解两端都具备较强竞争力。


2. 开源与推理向模型

1DeepSeek 系列

1DeepSeekV3.2ExpThinking 开源9月29日[12]

  • 基于 V3 系列的实验性推理模型,引入稀疏 Attention 与混合推理架构。
  • 重点优化:
    • 提升长链推理能力,降低幻觉率。
    • 大幅降低推理成本API 调用价格下降近一半)。
  • 在 SuperCLUE 9 月评测中,DeepSeekV3.2ExpThinking 以 62.62 分拿到国内第一,进入全球前十。[13]

结合年初开源的 DeepSeekR1类 OpenAI o1 推理模型)与 9 月的 V3.2Exp可以看出 DeepSeek 在“低成本高性能 + 推理能力透明化”这条路线持续发力,并在开源社区形成巨大影响力。


2美团 LongCatFlashChat9月1日[14][15]

  • 美团首个开源大模型MoE 架构,总参数约 560B平均激活 27B。
  • 支持 SGLang 与 vLLM 两种主流推理框架部署。
  • 以“长文本高效推理 + 高吞吐低成本”为目标,适配内部搜索、推荐、用户运营等场景;开源后也被视作“国产企业级开源模型的新样本”。

3. 垂直与行业大模型

1北京市行政复议垂直大模型9月12日服贸会正式发布[16][17]

  • 全国首个聚焦行政复议领域的垂直大模型,服务场景涵盖:立案、办案、结案全流程。
  • 指标表现:
    • 输出准确率 > 95%
    • 助手环节效率提升 > 100%,大量重复性工作由模型代劳。
  • 典型功能:
    • 立案:自动提取案件要素、规则对照自动审查是否符合立案条件。
    • 办案:辅助识别争议焦点、给出审理思路,充当“智能办案顾问”。
    • 结案:自动生成法律文书并支持电子归档。
  • 技术特点:
    • 轻量化、算力需求低,接口标准化,易于**“拎包接入”**各级行政复议机关现有系统。[16]

这是 9 月里最具代表性的“政务垂直大模型”落地案例,证明大模型在法律与政务领域已从试点走向系统性应用。


4. 多模态与科学专业大模型

  • 8月末刚发布的**“月球科学多模态专业大模型 V2.0”**在 9 月持续发酵,用于“数字月球”平台的高效运转,为地质构造识别与撞击坑分析提供 AI 大脑。[18]
  • 9月中下旬通义实验室披露其FunAudio 系列语音模型与多模态研究,强调语音理解与零/少样本泛化能力。[19]

整体上,2025 年到 9 月为止,多模态专业模型已从「地理」扩散到「月球科学、深海生境、工业安全」等多个交叉科学领域,真正成为科研“助手”。


5. 国际大模型动态与9月强相关

1OpenAISora 2 与开发栈升级

1Sora 2 正式发布9月30日[20][21]

  • 最新旗舰视频+音频生成模型,大幅提升:
    • 物理模拟准确性(动作、碰撞、液体、布料等)。
    • 长镜头与多镜头叙事连贯性。
    • 原生音画同步,支持多语言对白与环境音效。
  • 同步推出 iOS 社交应用 Sora
    • 类 TikTok 的纵向信息流交互,用户通过“客串/入镜”将自己或他人嵌入生成视频。
    • 上线数日内即登顶美区 App Store 免费榜。[22]

2Codex 全面升级9月15日[23]

  • 对代码生成与协作编程体验做全面提升,重点包括性能稳定性与编辑器内联体验。
  • 进一步稳固 OpenAI 在代码助手领域的领先地位。

2GoogleGemini 2.5 Flash-Preview9月25日[24][25]

  • 发布 gemini2.5flashpreview092025 版本,面向 Vertex AI 与 Firebase 等平台:
    • 强化工具调用、长上下文推理与多模态理解。
    • 在性价比模型Flash 系列)上持续打磨,支持更高并发与更低延迟。
  • 被视为“对标 DeepSeek/通义等性价比模型”的重要更新。

3MetaAI 眼镜与生态

  • Meta Connect 20259月1718日
    • 发布多款智能眼镜(如 RayBan Display 带屏 AR 眼镜),搭载 Meta AI。[26][27]
    • 在消费级 AI + AR 入口上与苹果、谷歌展开激烈竞争。

这些国际更新与国内 9 月诸多多模态/视频/视觉模型的发布形成呼应,显示出**“视频+音频+世界建模”成为 2025 下半年全球大厂共同押注的方向**。


二、发展回顾与阶段性总结(聚焦到 2025 年 9 月)

1. 能力格局:国内外差距与中国头部模型位置

根据 SuperCLUE 发布的《中文大模型基准测评 2025 年 9 月报告》,在综合评估(数学推理、科学推理、代码生成、智能体、精确指令遵循、幻觉控制六大任务)中:

  • 全球总榜:
    • GPT5(high) 以 69.37 分居首。
    • o4mini(high)、ClaudeSonnet4.5Reasoning 等海外模型包揽前六。[13]
  • 国内模型:
    • DeepSeekV3.2ExpThinking62.62 分
    • DoubaoSeed1.6thinking25071560.96 分
    • 双双并列“国内第一梯队”,跻身全球前十,证明中国顶级闭/开源模型已具备与国际头部模型直接竞争的实力。[13]
  • 开源赛道:
    • 前十中有九席为国内模型DeepSeek、华为盘古、通义千问等大幅领先海外最佳开源模型 gptoss120b 9 分以上。[13]

结论:

  • 在“闭源顶级模型GPT5、o4mini、ClaudeSonnet 等)上,中国整体仍略有差距。
  • 但在“开源赛道与中文场景”中,中国模型已形成整体领先,成为国内产业与算力生态的核心驱动力。

2. 技术趋势推理、Agent、多模态与开源

1推理与深度思考模型爆发

  • 国内:文心 X1.1、DeepSeekV3.2ExpThinking、豆包 1.5/1.6thinking、通义 QwQ 等推理/思考模型集中出现。
  • 国际OpenAI o1/o3、Google Gemini 2.5 Pro 等“Thinking model”成为新基准。
  • 特征:
    • 不再只看单轮问答得分,而是强调多步推理、链式规划、工具调用、自我反思
    • 以“慢思考”换高质量,逐渐渗透到金融分析、科研助理、代码审查等高价值场景。

2AI Agent智能体从概念走向落地

  • 文心 X1.1、通义 Qwen3Max、豆包 1.6vision 等都在强化“Agent 能力”:
    • 任务分解、工具/接口自动调用。
    • 长程任务状态记录与恢复。
  • 政务、金融、客服、运维中,已出现大批围绕特定任务构建的「专业 Agent」多方研究认为 2025 年被视作**“AI Agent 元年”**[28]。

3多模态与视频生成进入“世界模型”阶段

  • OpenAI Sora 2、腾讯混元 3D/图像 3.0、通义 Qwen3Omni、Seedream 4.0、DeepSeek 世界模型等,纷纷在**“物理一致性 + 叙事连贯 + 音画同步”**上做文章。
  • 趋势是从“会生视频”转向“理解环境与物理规则、能够长期保持角色与场景一致性本质上是通往“世界模型World Model”的工程化路径。

4开源模型:从跟随到自成体系

  • DeepSeek、通义、盘古、LongCat 等,本身已不再仅仅追随 Llama/GPT 结构,而是在架构、训练策略(如多阶段 RL、稀疏 Attention、Agentic training上进行大量原创尝试。
  • 开源成为国内算力与软硬协同验证的主要“试验场”,也极大降低了中小企业与高校使用门槛。

3. 落地与行业纵深:从“试点”走向“批量部署”

1政务与法律

  • 北京行政复议大模型是典型示范:
    • 在一个高专业、高规范、高风险领域实现“全流程嵌入”,准确率 >95%,效率翻倍。
    • 表明:在知识边界相对稳定、规则清晰的垂直领域,大模型已经可以成为标准生产力工具。[16][17]

2工业与安全

  • 海康威视“观澜”多模态大模型 + 文搜存储产品,用于图像检索与化工园区安全管控。
  • 隧道/地下空间、氢能专利大模型等,陆续在基础设施与能源领域发挥作用。

3科研与专业领域

  • “坤元”地理大模型、月球科学多模态模型 V2.0、深海生境多模态模型等标志着科研“AI 基础设施”逐步成型:
    • 提供自动文献分析、数据挖掘、图表生成与可视化能力。
    • 协助科学家在海量数据与多模态观测资料中发现新规律。

4内容生产与消费互联网

  • 视频生成Sora 2、豆包视频模型、万相 2.5 等)、图像生成(混元图像 3.0、Seedream 4.0)、长文写作和运营素材生成等,已在短视频、电商、广告行业大规模使用。
  • 9 月之后“AI 生成 + 人类审核”的生产模式成为各平台内容运营的默认范式。

4. 监管与生态:从“鼓励试验”到“规范发展”

  • 8 月 1 日起实施的《人工智能生成合成内容标识办法》,要求AI 生成内容必须显式/隐式标识9 月多模态大模型标识合规测评结果陆续发布,头部厂商整体合规性较好。[29]
  • 网信办陆续公布多批大模型备案信息910 月新增备案 73 款,登记应用 43 项,全国累计备案、登记总量快速攀升。[30]
  • 产业趋势:
    • 一方面继续鼓励“开源 + 创新”,如各地推出大模型奖补与算力扶持政策;
    • 另一方面要求模型在安全性、合规性与行业标准化方面加快建设,推动从“野蛮生长”走向“可持续发展”。

三、对企业与个人的可执行建议(基于 2025 年 9 月节点)

  1. 企业选型层面

    • 若重点在通用中文对话 + 办公+代码:优先评估通义 Qwen3Max、DeepSeekV3.2 系列、豆包 1.6 等,在 SuperCLUE、LLM Arena 等榜单上都处于国际第一梯队。
    • 若重视推理/决策:可优先考虑文心 X1.1、DeepSeek R1/V3.2ExpThinking、通义 QwQ 等“Thinking/Reasoning”模型并结合自身数据做小样本验证。
    • 若业务场景偏向视觉/视频、多模态交互:可关注混元图像 3.0、混元 3D 3.0、Seedream 4.0、Qwen3Omni、Sora 2如有合规渠道接入
  2. 行业落地路径

    • 政务、金融、法律、医疗等高门槛领域,推荐仿照“行政复议大模型”的路径:先选成熟通用模型 → 结合行业知识构建垂直大模型/Agent → 嵌入业务系统 → 评估准确率与工作量减负效果
    • 制造、能源、交通等行业,可自上而下构建“企业知识库 + 垂直 Agent”优先解决高频痛点如工单问答、设备运维、风险预警等。
  3. 开发者与团队能力建设

    • 建议把重点从“prompt 写得多好”转向“Agent 工作流设计、工具链集成、数据与版本管理”:包括检索增强、工作流编排、自动评测与回归测试。
    • 开源模型是最佳练兵场DeepSeek、Qwen 开源版、Llama 4 等都足以支撑严肃工程实践,同时不用承担昂贵的 API 成本。
  4. 普通个人用户

    • 2025 年 9 月以后,对大多数人的现实可行策略是:
      • 选两到三个主力模型(如通义千问、豆包、文心或 DeepSeek作为日常工作学习助手。
      • 快速建立“人与 AI 分工”:让模型承担信息检索、初稿撰写、代码草稿与文档总结,人类负责判断与修改。
      • 针对自己领域(法律、财务、设计、运营等)积累一套“可复用的提示词模板 + 工作流”,这会直接转化为生产力差异。

四、总结2025年9月是「能力成型 + 应用分化」的关键拐点

综合来看,截至 2025 年 9 月:

  • 技术层面

    • 全球通用大模型进入 GPT5 / Gemini 2.5 时代,国内 DeepSeek、通义、文心、豆包等在中文与开源赛道上全面追平甚至反超。
    • 推理模型、Agent 能力、多模态世界模型成为新一轮竞争焦点。
  • 应用层面

    • 大模型从“能聊天”演进为“能办事”,行政复议、金融风控、工业运维等典型垂直场景出现了一批可验证 ROI 的成功案例。
    • AI 已经深度嵌入内容生产链路和企业知识工作流程。
  • 生态与监管层面

    • 备案体系与内容标识制度落地,使得大模型产业从技术驱动逐步走向技术 + 合规 + 商业三位一体的成熟阶段。
    • 开源生态在国内呈现“量多质优”的态势,成为创新与产业化的重要支点。

如果把 20232024 看作“通用模型的春天”,那么 2025 年(尤其是 9 月前后的这一波集中发布)已经清晰地宣告:
大模型正在从「参数军备赛」转向「推理与 Agent 能力」的深水区,并且开始在一个个具体行业里兑现真实生产力。


References

[1] 通义千问发布Qwen3-Max-Preview等模型相关报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_44868bb0c9c27252
[2] 阿里通义发布Qwen3-Max相关新闻. https://www.stcn.com/article/detail/3355013.html
[3] 通义千问Qwen3-ASR-Flash发布报道. https://www.aitop100.cn/infomation/details/29105.html
[4] Qwen3-Omni与云栖大会相关报道. https://www.ithome.com/0/885/362.htm
[5] 百度发布文心大模型X1.1相关新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_22668bfdfcb32552
[6] 百度文心X1.1能力提升数据报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_94068c00d4627452
[7] 腾讯混元3D 3.0发布新闻. https://finance.sina.com.cn/tech/discovery/2025-09-16/doc-infqsnvi3672918.shtml
[8] 腾讯官方混元3D 3.0介绍. https://www.tencent.com/zh-cn/articles/2202183.html
[9] 腾讯混元图像3.0开源报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_85168d8ab8085852
[10] 字节跳动Seedream 4.0相关报道. https://finance.sina.com.cn/tech/shenji/2025-09-09/doc-infpwkss0560062.shtml
[11] 豆包大模型1.6-vision发布新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_47668db984412052
[12] DeepSeek-V3.2-Exp-Thinking开源新闻. https://caifuhao.eastmoney.com/news/20250929185536609761470
[13] 中文大模型基准测评2025年9月报告. https://www.sohu.com/a/945407063_122540770
[14] 美团LongCat-Flash-Chat开源介绍. https://www.qbitai.com/2025/09/327751.html
[15] AI大模型最新资讯2025年9月第1周. https://zhuanlan.zhihu.com/p/1947392667626473463
[16] 北京市行政复议垂直大模型发布会报道. https://www.beijing.gov.cn/ywdt/gzdt/202509/t20250915_4202200.html
[17] 全国首个行政复议垂直大模型亮相服贸会新闻. https://sfj.beijing.gov.cn/sfj/sfdt/ywdt82/flfw93/743755890/index.html
[18] “月球科学多模态专业大模型V2.0”相关报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_26168b56cde04952
[19] 阿里巴巴通义实验室系列模型进展. https://tongyi.aliyun.com/news?id=pxwhvf/suodqg/gbzl80oylrcv43kv
[20] Sora 2 正式发布介绍. https://openai.com/zh-Hans-CN/index/sora-2/
[21] 一文回顾OpenAI Sora 2发布解读. https://www.thepaper.cn/newsDetail_forward_31713511
[22] OpenAI Sora应用下载与爆火报道. https://news.aibase.com/zh/news/22376
[23] Codex 全面升级页面. https://openai.com/zh-Hans-CN/index/introducing-upgrades-to-codex/
[24] Gemini 2.5 Flash Preview文档. https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=zh-cn
[25] Gemini 2.5 Flash九月更新深度评测. https://cloud.tencent.com/developer/article/2571786
[26] Meta Connect 2025大会介绍. https://www.ithome.com/0/831/938.htm
[27] Meta Connect 2025智能眼镜发布新闻. https://www.ebrun.com/20250918/602506.shtml
[28] AI Agent元年相关产业分析报道. https://www.sohu.com/a/848714538_121798711
[29] 多模态大模型内容标识合规测评报道. https://tech.gmw.cn/2025-09/03/content_38262998.htm
[30] 2025年910月中国大模型备案与登记分析报告. https://blog.csdn.net/meidaoliha/article/details/154779561