23 KiB

Raw Blame History

2025年9月大模型版本发布与发展回顾总结

下文基于你给出的时间点（2025年9月）和已经收集到的公开信息，分成两部分：
1）2025年9月左右主要大模型版本与产品发布梳理；
2）结合9月各类评测与产业动态，对阶段性发展做一次回顾总结。

一、2025年9月重点发布与版本更新梳理

1. 国内通用大模型头部厂商

（1）阿里巴巴通义千问（Qwen 系列）

1）Qwen3-Max-Preview 与 Qwen3-Max 系列（9月上旬+云栖大会）

时间：
- 9月5–6日左右：Qwen3-Max-Preview (Instruct) 预览版上线，被称为“迄今为止规模最大模型”，参数量超 1 万亿。[1]
- 9月24日云栖大会：发布会确认Qwen3-Max旗舰模型正式亮相，性能宣称超越 GPT‑5、Claude Opus 4，跻身“全球前三”。[1][2]
关键特性：
- 混合专家（MoE）架构，极大提升推理性能与性价比。
- 在 SuperCLUE 等中文评测、数学推理、代码、指令遵循上获得头部成绩（具体分数在后文评测部分）。
- 提供指令版（Instruct）、多模态版等多形态，通过阿里云 API 与 Qwen Chat 对外开放。

2）Qwen3-ASR-Flash 语音识别模型（9月9日）[3]

基于 Qwen3 基座，融合海量多模态与数千万小时 ASR 语料训练。
主要亮点：
- 高精度 + 强鲁棒性（适应嘈杂环境）。
- 支持多语言识别和个性化声纹 / 词表定制。
- 对接企业语音客服、会议记录、车载等场景。

3）Qwen3-Omni 原生全模态大模型（9月26日云栖大会）[4]

支持文本、图像、音频等全模态输入输出，强调“预训练全模态不降智”。
在 36 项音频/音视频基准中获得 32 项开源 SOTA、22 项总评 SOTA，对标 Gemini‑2.5 Pro、GPT‑4o 等闭源强模型。
为通义听悟、通义万相等一系列 AI 应用提供底座。

小结：9月对通义来说，是从「大而强」到「全模态 + 全栈」的集中冲刺月：一边推出万亿级 Qwen3‑Max，冲刺通用能力榜首；一边补齐 ASR、Omni 等多模态短板，整体形成文本+图像+音频的统一家族。

（2）百度文心（ERNIE / 文心 X 系列）

文心大模型 X1.1 深度思考模型（9月9日 WAVE SUMMIT 2025）[5][6]

基于文心 4.5 深度微调的推理向模型 X1 的升级版。
相比 X1，在官方披露的指标上有明显跃升：[6]
- 事实性提升：+34.8%
- 指令遵循：+12.5%
- 智能体（Agent）能力：+9.6%
能力侧重：
- 更可靠的事实回答、严谨的长链推理，适合问答、知识库检索。
- 优化多步骤任务规划和工具调用，面向“文心 Agent”和行业应用。
部署：
- 已在文心一言官网、文小言 APP对C端开放。
- 在百度智能云千帆平台对企业和开发者开放 API，支持深度接入业务流程。[5]

小结：百度 9 月主推“深度思考、强事实、强 Agent”，文心 X1.1 标志着其从“通用聊天”走向“可托付的业务智能体”的再进阶。

（3）腾讯混元（Hunyuan 系列）

1）混元 3D 3.0 模型（9月16日腾讯全球数字生态大会）[7][8]

建模精度相较前代提升 3 倍，几何分辨率达 1536³，支持 36 亿体素超高清建模。
针对人脸雕刻/真人手办建模等难题做了专项突破：能在高保真还原脸部细节的同时，保持拓扑与渲染友好性。[7]
集成于“混元 3D AI”“混元 3D Studio”工具链中，为游戏、美术、文创等 3D 内容生产提供底座。

2）混元图像 3.0 开源（9月28日）[9]

原生多模态图像生成模型，参数约 80B，为首个开源工业级原生多模态生图模型。
优势：
- 支持长文本提示（上千 token），解析复杂语义与布局。
- 对真实感、构图、文字理解均进行优化，号称效果可对标头部闭源模型。
完全开源给开发者，在 AIGC、广告、游戏美术等场景加速落地。

小结：9月腾讯混元更偏重视觉与 3D 世界建模，将“大模型”从纯文本推理扩展到虚拟世界构建，围绕游戏与数字内容生态深耕。

（4）字节跳动豆包与 Seed 团队

1）Seedream 4.0 图像创作模型（9月9–11日）[10]

支持文生图、图像编辑、多图参考，多模态生图质量、速度、可控性都达到业内领先。
已集成到 豆包 App、即梦 AI、扣子平台，个人用户可免费体验；企业通过火山引擎 API 使用。
在 OCR、细节保持、多图风格一致性等方面做了专项优化，能够支撑商业级设计与生产。

2）豆包大模型 1.6‑vision（9月30日）[11]

豆包家族首个具备工具调用能力的视觉深度思考模型。
重点能力：
- 多模态理解 + 推理：对图表、截图、扫描件等复杂视觉信息有更强解析能力。
- 内置工具调用（如 OCR、检索、计算模块），支持更复杂的视觉问答与工作流。

小结：字节在 9 月把「豆包 = 文本+多模态」这条路走得更稳，Seedream 4.0 + 1.6‑vision 的组合，使其在图片创作与视觉理解两端都具备较强竞争力。

2. 开源与推理向模型

（1）DeepSeek 系列

1）DeepSeek‑V3.2‑Exp‑Thinking 开源（9月29日）[12]

基于 V3 系列的实验性推理模型，引入稀疏 Attention 与混合推理架构。
重点优化：
- 提升长链推理能力，降低幻觉率。
- 大幅降低推理成本（API 调用价格下降近一半）。
在 SuperCLUE 9 月评测中，DeepSeek‑V3.2‑Exp‑Thinking 以 62.62 分拿到国内第一，进入全球前十。[13]

结合年初开源的 DeepSeek‑R1（类 OpenAI o1 推理模型）与 9 月的 V3.2‑Exp，可以看出 DeepSeek 在“低成本高性能 + 推理能力透明化”这条路线持续发力，并在开源社区形成巨大影响力。

（2）美团 LongCat‑Flash‑Chat（9月1日）[14][15]

美团首个开源大模型，MoE 架构，总参数约 560B，平均激活 27B。
支持 SGLang 与 vLLM 两种主流推理框架部署。
以“长文本高效推理 + 高吞吐低成本”为目标，适配内部搜索、推荐、用户运营等场景；开源后也被视作“国产企业级开源模型的新样本”。

3. 垂直与行业大模型

（1）北京市行政复议垂直大模型（9月12日服贸会正式发布）[16][17]

全国首个聚焦行政复议领域的垂直大模型，服务场景涵盖：立案、办案、结案全流程。
指标表现：
- 输出准确率 > 95%。
- 助手环节效率提升 > 100%，大量重复性工作由模型代劳。
典型功能：
- 立案：自动提取案件要素、规则对照自动审查是否符合立案条件。
- 办案：辅助识别争议焦点、给出审理思路，充当“智能办案顾问”。
- 结案：自动生成法律文书并支持电子归档。
技术特点：
- 轻量化、算力需求低，接口标准化，易于**“拎包接入”**各级行政复议机关现有系统。[16]

这是 9 月里最具代表性的“政务垂直大模型”落地案例，证明大模型在法律与政务领域已从试点走向系统性应用。

4. 多模态与科学专业大模型

8月末刚发布的**“月球科学多模态专业大模型 V2.0”**在 9 月持续发酵，用于“数字月球”平台的高效运转，为地质构造识别与撞击坑分析提供 AI 大脑。[18]
9月中下旬，通义实验室披露其FunAudio 系列语音模型与多模态研究，强调语音理解与零/少样本泛化能力。[19]

整体上，2025 年到 9 月为止，多模态专业模型已从「地理」扩散到「月球科学、深海生境、工业安全」等多个交叉科学领域，真正成为科研“助手”。

5. 国际大模型动态（与9月强相关）

（1）OpenAI：Sora 2 与开发栈升级

1）Sora 2 正式发布（9月30日）[20][21]

最新旗舰视频+音频生成模型，大幅提升：
- 物理模拟准确性（动作、碰撞、液体、布料等）。
- 长镜头与多镜头叙事连贯性。
- 原生音画同步，支持多语言对白与环境音效。
同步推出 iOS 社交应用 Sora：
- 类 TikTok 的纵向信息流交互，用户通过“客串/入镜”将自己或他人嵌入生成视频。
- 上线数日内即登顶美区 App Store 免费榜。[22]

2）Codex 全面升级（9月15日）[23]

对代码生成与协作编程体验做全面提升，重点包括性能稳定性与编辑器内联体验。
进一步稳固 OpenAI 在代码助手领域的领先地位。

（2）Google：Gemini 2.5 Flash-Preview（9月25日）[24][25]

发布 gemini‑2.5‑flash‑preview‑09‑2025 版本，面向 Vertex AI 与 Firebase 等平台：
- 强化工具调用、长上下文推理与多模态理解。
- 在性价比模型（Flash 系列）上持续打磨，支持更高并发与更低延迟。
被视为“对标 DeepSeek/通义等性价比模型”的重要更新。

（3）Meta：AI 眼镜与生态

Meta Connect 2025（9月17–18日）：
- 发布多款智能眼镜（如 Ray‑Ban Display 带屏 AR 眼镜），搭载 Meta AI。[26][27]
- 在消费级 AI + AR 入口上与苹果、谷歌展开激烈竞争。

这些国际更新与国内 9 月诸多多模态/视频/视觉模型的发布形成呼应，显示出**“视频+音频+世界建模”成为 2025 下半年全球大厂共同押注的方向**。

二、发展回顾与阶段性总结（聚焦到 2025 年 9 月）

1. 能力格局：国内外差距与中国头部模型位置

根据 SuperCLUE 发布的《中文大模型基准测评 2025 年 9 月报告》，在综合评估（数学推理、科学推理、代码生成、智能体、精确指令遵循、幻觉控制六大任务）中：

全球总榜：
- GPT‑5(high) 以 69.37 分居首。
- o4‑mini(high)、Claude‑Sonnet‑4.5‑Reasoning 等海外模型包揽前六。[13]
国内模型：
- DeepSeek‑V3.2‑Exp‑Thinking：62.62 分。
- Doubao‑Seed‑1.6‑thinking‑250715：60.96 分。
- 双双并列“国内第一梯队”，跻身全球前十，证明中国顶级闭/开源模型已具备与国际头部模型直接竞争的实力。[13]
开源赛道：
- 前十中有九席为国内模型，DeepSeek、华为盘古、通义千问等大幅领先海外最佳开源模型 gpt‑oss‑120b 9 分以上。[13]

结论：

在“闭源顶级模型”（GPT‑5、o4‑mini、Claude‑Sonnet 等）上，中国整体仍略有差距。
但在“开源赛道与中文场景”中，中国模型已形成整体领先，成为国内产业与算力生态的核心驱动力。

2. 技术趋势：推理、Agent、多模态与开源

1）推理与深度思考模型爆发

国内：文心 X1.1、DeepSeek‑V3.2‑Exp‑Thinking、豆包 1.5/1.6‑thinking、通义 QwQ 等推理/思考模型集中出现。
国际：OpenAI o1/o3、Google Gemini 2.5 Pro 等“Thinking model”成为新基准。
特征：
- 不再只看单轮问答得分，而是强调多步推理、链式规划、工具调用、自我反思。
- 以“慢思考”换高质量，逐渐渗透到金融分析、科研助理、代码审查等高价值场景。

2）AI Agent（智能体）从概念走向落地

文心 X1.1、通义 Qwen3‑Max、豆包 1.6‑vision 等都在强化“Agent 能力”：
- 任务分解、工具/接口自动调用。
- 长程任务状态记录与恢复。
政务、金融、客服、运维中，已出现大批围绕特定任务构建的「专业 Agent」；多方研究认为 2025 年被视作**“AI Agent 元年”**[28]。

3）多模态与视频生成进入“世界模型”阶段

OpenAI Sora 2、腾讯混元 3D/图像 3.0、通义 Qwen3‑Omni、Seedream 4.0、DeepSeek 世界模型等，纷纷在**“物理一致性 + 叙事连贯 + 音画同步”**上做文章。
趋势是从“会生视频”转向“理解环境与物理规则、能够长期保持角色与场景一致性”，本质上是通往“世界模型（World Model）”的工程化路径。

4）开源模型：从跟随到自成体系

DeepSeek、通义、盘古、LongCat 等，本身已不再仅仅追随 Llama/GPT 结构，而是在架构、训练策略（如多阶段 RL、稀疏 Attention、Agentic training）上进行大量原创尝试。
开源成为国内算力与软硬协同验证的主要“试验场”，也极大降低了中小企业与高校使用门槛。

3. 落地与行业纵深：从“试点”走向“批量部署”

1）政务与法律

北京行政复议大模型是典型示范：
- 在一个高专业、高规范、高风险领域实现“全流程嵌入”，准确率 >95%，效率翻倍。
- 表明：在知识边界相对稳定、规则清晰的垂直领域，大模型已经可以成为标准生产力工具。[16][17]

2）工业与安全

海康威视“观澜”多模态大模型 + 文搜存储产品，用于图像检索与化工园区安全管控。
隧道/地下空间、氢能专利大模型等，陆续在基础设施与能源领域发挥作用。

3）科研与专业领域

“坤元”地理大模型、月球科学多模态模型 V2.0、深海生境多模态模型等，标志着科研“AI 基础设施”逐步成型：
- 提供自动文献分析、数据挖掘、图表生成与可视化能力。
- 协助科学家在海量数据与多模态观测资料中发现新规律。

4）内容生产与消费互联网

视频生成（Sora 2、豆包视频模型、万相 2.5 等）、图像生成（混元图像 3.0、Seedream 4.0）、长文写作和运营素材生成等，已在短视频、电商、广告行业大规模使用。
9 月之后，“AI 生成 + 人类审核”的生产模式成为各平台内容运营的默认范式。

4. 监管与生态：从“鼓励试验”到“规范发展”

8 月 1 日起实施的《人工智能生成合成内容标识办法》，要求AI 生成内容必须显式/隐式标识，9 月多模态大模型标识合规测评结果陆续发布，头部厂商整体合规性较好。[29]
网信办陆续公布多批大模型备案信息，9–10 月新增备案 73 款，登记应用 43 项，全国累计备案、登记总量快速攀升。[30]
产业趋势：
- 一方面继续鼓励“开源 + 创新”，如各地推出大模型奖补与算力扶持政策；
- 另一方面要求模型在安全性、合规性与行业标准化方面加快建设，推动从“野蛮生长”走向“可持续发展”。

三、对企业与个人的可执行建议（基于 2025 年 9 月节点）

企业选型层面
- 若重点在通用中文对话 + 办公+代码：优先评估通义 Qwen3‑Max、DeepSeek‑V3.2 系列、豆包 1.6 等，在 SuperCLUE、LLM Arena 等榜单上都处于国际第一梯队。
- 若重视推理/决策：可优先考虑文心 X1.1、DeepSeek R1/V3.2‑Exp‑Thinking、通义 QwQ 等“Thinking/Reasoning”模型，并结合自身数据做小样本验证。
- 若业务场景偏向视觉/视频、多模态交互：可关注混元图像 3.0、混元 3D 3.0、Seedream 4.0、Qwen3‑Omni、Sora 2（如有合规渠道接入）。
行业落地路径
- 政务、金融、法律、医疗等高门槛领域，推荐仿照“行政复议大模型”的路径：先选成熟通用模型 → 结合行业知识构建垂直大模型/Agent → 嵌入业务系统 → 评估准确率与工作量减负效果。
- 制造、能源、交通等行业，可自上而下构建“企业知识库 + 垂直 Agent”，优先解决高频痛点：如工单问答、设备运维、风险预警等。
开发者与团队能力建设
- 建议把重点从“prompt 写得多好”转向“Agent 工作流设计、工具链集成、数据与版本管理”：包括检索增强、工作流编排、自动评测与回归测试。
- 开源模型是最佳练兵场：DeepSeek、Qwen 开源版、Llama 4 等都足以支撑严肃工程实践，同时不用承担昂贵的 API 成本。
普通个人用户
- 2025 年 9 月以后，对大多数人的现实可行策略是：
  - 选两到三个主力模型（如通义千问、豆包、文心或 DeepSeek）作为日常工作学习助手。
  - 快速建立“人与 AI 分工”：让模型承担信息检索、初稿撰写、代码草稿与文档总结，人类负责判断与修改。
  - 针对自己领域（法律、财务、设计、运营等）积累一套“可复用的提示词模板 + 工作流”，这会直接转化为生产力差异。

四、总结：2025年9月是「能力成型 + 应用分化」的关键拐点

综合来看，截至 2025 年 9 月：

技术层面：
- 全球通用大模型进入 GPT‑5 / Gemini 2.5 时代，国内 DeepSeek、通义、文心、豆包等在中文与开源赛道上全面追平甚至反超。
- 推理模型、Agent 能力、多模态世界模型成为新一轮竞争焦点。
应用层面：
- 大模型从“能聊天”演进为“能办事”，行政复议、金融风控、工业运维等典型垂直场景出现了一批可验证 ROI 的成功案例。
- AI 已经深度嵌入内容生产链路和企业知识工作流程。
生态与监管层面：
- 备案体系与内容标识制度落地，使得大模型产业从技术驱动逐步走向技术 + 合规 + 商业三位一体的成熟阶段。
- 开源生态在国内呈现“量多质优”的态势，成为创新与产业化的重要支点。

如果把 2023–2024 看作“通用模型的春天”，那么 2025 年（尤其是 9 月前后的这一波集中发布）已经清晰地宣告：
大模型正在从「参数军备赛」转向「推理与 Agent 能力」的深水区，并且开始在一个个具体行业里兑现真实生产力。

References

[1] 通义千问发布Qwen3-Max-Preview等模型相关报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_44868bb0c9c27252
[2] 阿里通义发布Qwen3-Max相关新闻. https://www.stcn.com/article/detail/3355013.html
[3] 通义千问Qwen3-ASR-Flash发布报道. https://www.aitop100.cn/infomation/details/29105.html
[4] Qwen3-Omni与云栖大会相关报道. https://www.ithome.com/0/885/362.htm
[5] 百度发布文心大模型X1.1相关新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_22668bfdfcb32552
[6] 百度文心X1.1能力提升数据报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_94068c00d4627452
[7] 腾讯混元3D 3.0发布新闻. https://finance.sina.com.cn/tech/discovery/2025-09-16/doc-infqsnvi3672918.shtml
[8] 腾讯官方混元3D 3.0介绍. https://www.tencent.com/zh-cn/articles/2202183.html
[9] 腾讯混元图像3.0开源报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_85168d8ab8085852
[10] 字节跳动Seedream 4.0相关报道. https://finance.sina.com.cn/tech/shenji/2025-09-09/doc-infpwkss0560062.shtml
[11] 豆包大模型1.6-vision发布新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_47668db984412052
[12] DeepSeek-V3.2-Exp-Thinking开源新闻. https://caifuhao.eastmoney.com/news/20250929185536609761470
[13] 中文大模型基准测评2025年9月报告. https://www.sohu.com/a/945407063_122540770
[14] 美团LongCat-Flash-Chat开源介绍. https://www.qbitai.com/2025/09/327751.html
[15] AI大模型最新资讯｜2025年9月第1周. https://zhuanlan.zhihu.com/p/1947392667626473463
[16] 北京市行政复议垂直大模型发布会报道. https://www.beijing.gov.cn/ywdt/gzdt/202509/t20250915_4202200.html
[17] 全国首个行政复议垂直大模型亮相服贸会新闻. https://sfj.beijing.gov.cn/sfj/sfdt/ywdt82/flfw93/743755890/index.html
[18] “月球科学多模态专业大模型V2.0”相关报道. https://so.html5.qq.com/page/real/search_news?docid=70000021_26168b56cde04952
[19] 阿里巴巴通义实验室系列模型进展. https://tongyi.aliyun.com/news?id=pxwhvf/suodqg/gbzl80oylrcv43kv
[20] Sora 2 正式发布介绍. https://openai.com/zh-Hans-CN/index/sora-2/
[21] 一文回顾OpenAI Sora 2发布解读. https://www.thepaper.cn/newsDetail_forward_31713511
[22] OpenAI Sora应用下载与爆火报道. https://news.aibase.com/zh/news/22376
[23] Codex 全面升级页面. https://openai.com/zh-Hans-CN/index/introducing-upgrades-to-codex/
[24] Gemini 2.5 Flash Preview文档. https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=zh-cn
[25] Gemini 2.5 Flash九月更新深度评测. https://cloud.tencent.com/developer/article/2571786
[26] Meta Connect 2025大会介绍. https://www.ithome.com/0/831/938.htm
[27] Meta Connect 2025智能眼镜发布新闻. https://www.ebrun.com/20250918/602506.shtml
[28] AI Agent元年相关产业分析报道. https://www.sohu.com/a/848714538_121798711
[29] 多模态大模型内容标识合规测评报道. https://tech.gmw.cn/2025-09/03/content_38262998.htm
[30] 2025年9–10月中国大模型备案与登记分析报告. https://blog.csdn.net/meidaoliha/article/details/154779561

23 KiB Raw Blame History Unescape Escape