ai-doc/2025年ai总结/9月.md

355 lines
23 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 2025年9月大模型版本发布与发展回顾总结
下文基于你给出的时间点2025年9月和已经收集到的公开信息分成两部分
12025年9月左右主要大模型版本与产品发布梳理
2结合9月各类评测与产业动态对阶段性发展做一次回顾总结。
---
## 一、2025年9月重点发布与版本更新梳理
### 1. 国内通用大模型头部厂商
#### 1阿里巴巴通义千问Qwen 系列)
1**Qwen3-Max-Preview 与 Qwen3-Max 系列9月上旬+云栖大会)**
- 时间:
- 9月56日左右**Qwen3-Max-Preview (Instruct)** 预览版上线,被称为“迄今为止规模最大模型”,参数量超 1 万亿。[1]
- 9月24日云栖大会发布会确认**Qwen3-Max**旗舰模型正式亮相,性能宣称超越 GPT5、Claude Opus 4跻身“全球前三”。[1][2]
- 关键特性:
- 混合专家MoE架构极大提升推理性能与性价比。
- 在 SuperCLUE 等中文评测、数学推理、代码、指令遵循上获得头部成绩(具体分数在后文评测部分)。
- 提供指令版Instruct、多模态版等多形态通过阿里云 API 与 Qwen Chat 对外开放。
2**Qwen3-ASR-Flash 语音识别模型9月9日**[3]
- 基于 Qwen3 基座,融合海量多模态与数千万小时 ASR 语料训练。
- 主要亮点:
- 高精度 + 强鲁棒性(适应嘈杂环境)。
- 支持多语言识别和**个性化声纹 / 词表定制**。
- 对接企业语音客服、会议记录、车载等场景。
3**Qwen3-Omni 原生全模态大模型9月26日云栖大会**[4]
- 支持文本、图像、音频等全模态输入输出,强调“预训练全模态不降智”。
- 在 36 项音频/音视频基准中获得 32 项开源 SOTA、22 项总评 SOTA对标 Gemini2.5 Pro、GPT4o 等闭源强模型。
- 为通义听悟、通义万相等一系列 AI 应用提供底座。
> 小结9月对通义来说是**从「大而强」到「全模态 + 全栈」的集中冲刺月**:一边推出万亿级 Qwen3Max冲刺通用能力榜首一边补齐 ASR、Omni 等多模态短板,整体形成文本+图像+音频的统一家族。
---
#### 2百度文心ERNIE / 文心 X 系列)
**文心大模型 X1.1 深度思考模型9月9日 WAVE SUMMIT 2025**[5][6]
- 基于文心 4.5 深度微调的推理向模型 X1 的升级版。
- 相比 X1在官方披露的指标上有明显跃升[6]
- 事实性提升:+34.8%
- 指令遵循:+12.5%
- 智能体Agent能力+9.6%
- 能力侧重:
- 更可靠的事实回答、严谨的长链推理,适合问答、知识库检索。
- 优化多步骤任务规划和工具调用,面向“文心 Agent”和行业应用。
- 部署:
- 已在**文心一言官网、文小言 APP**对C端开放。
- 在**百度智能云千帆平台**对企业和开发者开放 API支持深度接入业务流程。[5]
> 小结:百度 9 月主推“深度思考、强事实、强 Agent”文心 X1.1 标志着其从“通用聊天”走向“可托付的业务智能体”的再进阶。
---
#### 3腾讯混元Hunyuan 系列)
1**混元 3D 3.0 模型9月16日 腾讯全球数字生态大会)**[7][8]
- 建模精度相较前代提升 **3 倍**,几何分辨率达 **1536³**,支持 **36 亿体素**超高清建模。
- 针对人脸雕刻/真人手办建模等难题做了专项突破:能在高保真还原脸部细节的同时,保持拓扑与渲染友好性。[7]
- 集成于“混元 3D AI”“混元 3D Studio”工具链中为游戏、美术、文创等 3D 内容生产提供底座。
2**混元图像 3.0 开源9月28日**[9]
- 原生多模态图像生成模型,参数约 80B为首个开源工业级原生多模态生图模型。
- 优势:
- 支持长文本提示(上千 token解析复杂语义与布局。
- 对真实感、构图、文字理解均进行优化,号称效果可对标头部闭源模型。
- 完全开源给开发者,在 AIGC、广告、游戏美术等场景加速落地。
> 小结9月腾讯混元更偏重**视觉与 3D 世界建模**,将“大模型”从纯文本推理扩展到虚拟世界构建,围绕游戏与数字内容生态深耕。
---
#### 4字节跳动豆包与 Seed 团队
1**Seedream 4.0 图像创作模型9月911日**[10]
- 支持文生图、图像编辑、多图参考,多模态生图质量、速度、可控性都达到业内领先。
- 已集成到 **豆包 App、即梦 AI、扣子平台**,个人用户可免费体验;企业通过火山引擎 API 使用。
- 在 OCR、细节保持、多图风格一致性等方面做了专项优化能够支撑商业级设计与生产。
2**豆包大模型 1.6vision9月30日**[11]
- 豆包家族首个具备**工具调用能力的视觉深度思考模型**。
- 重点能力:
- 多模态理解 + 推理:对图表、截图、扫描件等复杂视觉信息有更强解析能力。
- 内置工具调用(如 OCR、检索、计算模块支持更复杂的视觉问答与工作流。
> 小结:字节在 9 月把「豆包 = 文本+多模态」这条路走得更稳Seedream 4.0 + 1.6vision 的组合,使其在图片创作与视觉理解两端都具备较强竞争力。
---
### 2. 开源与推理向模型
#### 1DeepSeek 系列
1**DeepSeekV3.2ExpThinking 开源9月29日**[12]
- 基于 V3 系列的实验性推理模型,引入稀疏 Attention 与混合推理架构。
- 重点优化:
- 提升长链推理能力,降低幻觉率。
- 大幅降低推理成本API 调用价格下降近一半)。
- 在 SuperCLUE 9 月评测中,**DeepSeekV3.2ExpThinking 以 62.62 分拿到国内第一,进入全球前十**。[13]
> 结合年初开源的 DeepSeekR1类 OpenAI o1 推理模型)与 9 月的 V3.2Exp可以看出 DeepSeek 在“低成本高性能 + 推理能力透明化”这条路线持续发力,并在开源社区形成巨大影响力。
---
#### 2美团 LongCatFlashChat9月1日[14][15]
- 美团首个开源大模型MoE 架构,总参数约 560B平均激活 27B。
- 支持 **SGLang 与 vLLM** 两种主流推理框架部署。
- 以“长文本高效推理 + 高吞吐低成本”为目标,适配内部搜索、推荐、用户运营等场景;开源后也被视作“国产企业级开源模型的新样本”。
---
### 3. 垂直与行业大模型
#### 1北京市行政复议垂直大模型9月12日服贸会正式发布[16][17]
- 全国首个聚焦行政复议领域的垂直大模型,服务场景涵盖:**立案、办案、结案**全流程。
- 指标表现:
- 输出准确率 **> 95%**。
- 助手环节效率提升 **> 100%**,大量重复性工作由模型代劳。
- 典型功能:
- 立案:自动提取案件要素、规则对照自动审查是否符合立案条件。
- 办案:辅助识别争议焦点、给出审理思路,充当“智能办案顾问”。
- 结案:自动生成法律文书并支持电子归档。
- 技术特点:
- 轻量化、算力需求低,接口标准化,易于**“拎包接入”**各级行政复议机关现有系统。[16]
> 这是 9 月里最具代表性的“**政务垂直大模型**”落地案例,证明大模型在法律与政务领域已从试点走向系统性应用。
---
### 4. 多模态与科学专业大模型
- 8月末刚发布的**“月球科学多模态专业大模型 V2.0”**在 9 月持续发酵,用于“数字月球”平台的高效运转,为地质构造识别与撞击坑分析提供 AI 大脑。[18]
- 9月中下旬通义实验室披露其**FunAudio 系列语音模型**与多模态研究,强调语音理解与零/少样本泛化能力。[19]
> 整体上,**2025 年到 9 月为止,多模态专业模型已从「地理」扩散到「月球科学、深海生境、工业安全」等多个交叉科学领域**,真正成为科研“助手”。
---
### 5. 国际大模型动态与9月强相关
#### 1OpenAISora 2 与开发栈升级
1**Sora 2 正式发布9月30日**[20][21]
- 最新旗舰视频+音频生成模型,大幅提升:
- 物理模拟准确性(动作、碰撞、液体、布料等)。
- 长镜头与多镜头叙事连贯性。
- 原生音画同步,支持多语言对白与环境音效。
- 同步推出 iOS 社交应用 **Sora**
- 类 TikTok 的纵向信息流交互,用户通过“客串/入镜”将自己或他人嵌入生成视频。
- 上线数日内即登顶美区 App Store 免费榜。[22]
2**Codex 全面升级9月15日**[23]
- 对代码生成与协作编程体验做全面提升,重点包括性能稳定性与编辑器内联体验。
- 进一步稳固 OpenAI 在代码助手领域的领先地位。
#### 2GoogleGemini 2.5 Flash-Preview9月25日[24][25]
- 发布 **gemini2.5flashpreview092025** 版本,面向 Vertex AI 与 Firebase 等平台:
- 强化工具调用、长上下文推理与多模态理解。
- 在性价比模型Flash 系列)上持续打磨,支持更高并发与更低延迟。
- 被视为“对标 DeepSeek/通义等性价比模型”的重要更新。
#### 3MetaAI 眼镜与生态
- **Meta Connect 20259月1718日**
- 发布多款智能眼镜(如 RayBan Display 带屏 AR 眼镜),搭载 Meta AI。[26][27]
- 在消费级 AI + AR 入口上与苹果、谷歌展开激烈竞争。
> 这些国际更新与国内 9 月诸多多模态/视频/视觉模型的发布形成呼应,显示出**“视频+音频+世界建模”成为 2025 下半年全球大厂共同押注的方向**。
---
## 二、发展回顾与阶段性总结(聚焦到 2025 年 9 月)
### 1. 能力格局:国内外差距与中国头部模型位置
根据 SuperCLUE 发布的《中文大模型基准测评 2025 年 9 月报告》,在综合评估(数学推理、科学推理、代码生成、智能体、精确指令遵循、幻觉控制六大任务)中:
- 全球总榜:
- GPT5(high) 以 **69.37 分**居首。
- o4mini(high)、ClaudeSonnet4.5Reasoning 等海外模型包揽前六。[13]
- 国内模型:
- **DeepSeekV3.2ExpThinking62.62 分**。
- **DoubaoSeed1.6thinking25071560.96 分**。
- 双双并列“国内第一梯队”,跻身全球前十,证明中国顶级闭/开源模型已具备与国际头部模型直接竞争的实力。[13]
- 开源赛道:
- 前十中有九席为国内模型DeepSeek、华为盘古、通义千问等大幅领先海外最佳开源模型 gptoss120b **9 分以上**。[13]
**结论:**
- 在“**闭源顶级模型**”GPT5、o4mini、ClaudeSonnet 等)上,中国整体仍略有差距。
- 但在“**开源赛道与中文场景**”中,中国模型已形成整体领先,成为国内产业与算力生态的核心驱动力。
---
### 2. 技术趋势推理、Agent、多模态与开源
1**推理与深度思考模型爆发**
- 国内:文心 X1.1、DeepSeekV3.2ExpThinking、豆包 1.5/1.6thinking、通义 QwQ 等推理/思考模型集中出现。
- 国际OpenAI o1/o3、Google Gemini 2.5 Pro 等“Thinking model”成为新基准。
- 特征:
- 不再只看单轮问答得分,而是强调**多步推理、链式规划、工具调用、自我反思**。
- 以“**慢思考**”换高质量,逐渐渗透到金融分析、科研助理、代码审查等高价值场景。
2**AI Agent智能体从概念走向落地**
- 文心 X1.1、通义 Qwen3Max、豆包 1.6vision 等都在强化“Agent 能力”:
- 任务分解、工具/接口自动调用。
- 长程任务状态记录与恢复。
- 政务、金融、客服、运维中,已出现大批围绕特定任务构建的「专业 Agent」多方研究认为 2025 年被视作**“AI Agent 元年”**[28]。
3**多模态与视频生成进入“世界模型”阶段**
- OpenAI Sora 2、腾讯混元 3D/图像 3.0、通义 Qwen3Omni、Seedream 4.0、DeepSeek 世界模型等,纷纷在**“物理一致性 + 叙事连贯 + 音画同步”**上做文章。
- 趋势是从“会生视频”转向“**理解环境与物理规则、能够长期保持角色与场景一致性**”本质上是通往“世界模型World Model”的工程化路径。
4**开源模型:从跟随到自成体系**
- DeepSeek、通义、盘古、LongCat 等,本身已不再仅仅追随 Llama/GPT 结构,而是在架构、训练策略(如多阶段 RL、稀疏 Attention、Agentic training上进行大量原创尝试。
- 开源成为国内算力与软硬协同验证的主要“试验场”,也极大降低了中小企业与高校使用门槛。
---
### 3. 落地与行业纵深:从“试点”走向“批量部署”
1**政务与法律**
- 北京行政复议大模型是典型示范:
- 在一个高专业、高规范、高风险领域实现“全流程嵌入”,准确率 >95%,效率翻倍。
- 表明:**在知识边界相对稳定、规则清晰的垂直领域,大模型已经可以成为标准生产力工具**。[16][17]
2**工业与安全**
- 海康威视“观澜”多模态大模型 + 文搜存储产品,用于图像检索与化工园区安全管控。
- 隧道/地下空间、氢能专利大模型等,陆续在基础设施与能源领域发挥作用。
3**科研与专业领域**
- “坤元”地理大模型、月球科学多模态模型 V2.0、深海生境多模态模型等标志着科研“AI 基础设施”逐步成型:
- 提供自动文献分析、数据挖掘、图表生成与可视化能力。
- 协助科学家在海量数据与多模态观测资料中发现新规律。
4**内容生产与消费互联网**
- 视频生成Sora 2、豆包视频模型、万相 2.5 等)、图像生成(混元图像 3.0、Seedream 4.0)、长文写作和运营素材生成等,已在短视频、电商、广告行业大规模使用。
- 9 月之后“AI 生成 + 人类审核”的生产模式成为各平台内容运营的默认范式。
---
### 4. 监管与生态:从“鼓励试验”到“规范发展”
- 8 月 1 日起实施的《人工智能生成合成内容标识办法》,要求**AI 生成内容必须显式/隐式标识**9 月多模态大模型标识合规测评结果陆续发布,头部厂商整体合规性较好。[29]
- 网信办陆续公布多批大模型备案信息910 月新增备案 73 款,登记应用 43 项,全国累计备案、登记总量快速攀升。[30]
- 产业趋势:
- 一方面继续鼓励“开源 + 创新”,如各地推出大模型奖补与算力扶持政策;
- 另一方面要求模型在安全性、合规性与行业标准化方面加快建设,推动从“野蛮生长”走向“可持续发展”。
---
## 三、对企业与个人的可执行建议(基于 2025 年 9 月节点)
1. **企业选型层面**
- 若重点在**通用中文对话 + 办公+代码**:优先评估通义 Qwen3Max、DeepSeekV3.2 系列、豆包 1.6 等,在 SuperCLUE、LLM Arena 等榜单上都处于国际第一梯队。
- 若重视**推理/决策**:可优先考虑文心 X1.1、DeepSeek R1/V3.2ExpThinking、通义 QwQ 等“Thinking/Reasoning”模型并结合自身数据做小样本验证。
- 若业务场景偏向**视觉/视频、多模态交互**:可关注混元图像 3.0、混元 3D 3.0、Seedream 4.0、Qwen3Omni、Sora 2如有合规渠道接入
2. **行业落地路径**
- 政务、金融、法律、医疗等高门槛领域,推荐仿照“行政复议大模型”的路径:**先选成熟通用模型 → 结合行业知识构建垂直大模型/Agent → 嵌入业务系统 → 评估准确率与工作量减负效果**。
- 制造、能源、交通等行业,可自上而下构建“企业知识库 + 垂直 Agent”优先解决高频痛点如工单问答、设备运维、风险预警等。
3. **开发者与团队能力建设**
- 建议把重点从“prompt 写得多好”转向“**Agent 工作流设计、工具链集成、数据与版本管理**”:包括检索增强、工作流编排、自动评测与回归测试。
- 开源模型是最佳练兵场DeepSeek、Qwen 开源版、Llama 4 等都足以支撑严肃工程实践,同时不用承担昂贵的 API 成本。
4. **普通个人用户**
- 2025 年 9 月以后,对大多数人的现实可行策略是:
- 选两到三个主力模型(如通义千问、豆包、文心或 DeepSeek作为日常工作学习助手。
- 快速建立“人与 AI 分工”:让模型承担信息检索、初稿撰写、代码草稿与文档总结,人类负责判断与修改。
- 针对自己领域(法律、财务、设计、运营等)积累一套“可复用的提示词模板 + 工作流”,这会直接转化为生产力差异。
---
## 四、总结2025年9月是「能力成型 + 应用分化」的关键拐点
综合来看,截至 2025 年 9 月:
- **技术层面**
- 全球通用大模型进入 GPT5 / Gemini 2.5 时代,国内 DeepSeek、通义、文心、豆包等在中文与开源赛道上全面追平甚至反超。
- 推理模型、Agent 能力、多模态世界模型成为新一轮竞争焦点。
- **应用层面**
- 大模型从“能聊天”演进为“**能办事**”,行政复议、金融风控、工业运维等典型垂直场景出现了一批可验证 ROI 的成功案例。
- AI 已经深度嵌入内容生产链路和企业知识工作流程。
- **生态与监管层面**
- 备案体系与内容标识制度落地,使得大模型产业从技术驱动逐步走向**技术 + 合规 + 商业**三位一体的成熟阶段。
- 开源生态在国内呈现“量多质优”的态势,成为创新与产业化的重要支点。
如果把 20232024 看作“通用模型的春天”,那么 2025 年(尤其是 9 月前后的这一波集中发布)已经清晰地宣告:
**大模型正在从「参数军备赛」转向「推理与 Agent 能力」的深水区,并且开始在一个个具体行业里兑现真实生产力。**
---
### References
[1] 通义千问发布Qwen3-Max-Preview等模型相关报道. [https://so.html5.qq.com/page/real/search_news?docid=70000021_44868bb0c9c27252](https://so.html5.qq.com/page/real/search_news?docid=70000021_44868bb0c9c27252)
[2] 阿里通义发布Qwen3-Max相关新闻. [https://www.stcn.com/article/detail/3355013.html](https://www.stcn.com/article/detail/3355013.html)
[3] 通义千问Qwen3-ASR-Flash发布报道. [https://www.aitop100.cn/infomation/details/29105.html](https://www.aitop100.cn/infomation/details/29105.html)
[4] Qwen3-Omni与云栖大会相关报道. [https://www.ithome.com/0/885/362.htm](https://www.ithome.com/0/885/362.htm)
[5] 百度发布文心大模型X1.1相关新闻. [https://so.html5.qq.com/page/real/search_news?docid=70000021_22668bfdfcb32552](https://so.html5.qq.com/page/real/search_news?docid=70000021_22668bfdfcb32552)
[6] 百度文心X1.1能力提升数据报道. [https://so.html5.qq.com/page/real/search_news?docid=70000021_94068c00d4627452](https://so.html5.qq.com/page/real/search_news?docid=70000021_94068c00d4627452)
[7] 腾讯混元3D 3.0发布新闻. [https://finance.sina.com.cn/tech/discovery/2025-09-16/doc-infqsnvi3672918.shtml](https://finance.sina.com.cn/tech/discovery/2025-09-16/doc-infqsnvi3672918.shtml)
[8] 腾讯官方混元3D 3.0介绍. [https://www.tencent.com/zh-cn/articles/2202183.html](https://www.tencent.com/zh-cn/articles/2202183.html)
[9] 腾讯混元图像3.0开源报道. [https://so.html5.qq.com/page/real/search_news?docid=70000021_85168d8ab8085852](https://so.html5.qq.com/page/real/search_news?docid=70000021_85168d8ab8085852)
[10] 字节跳动Seedream 4.0相关报道. [https://finance.sina.com.cn/tech/shenji/2025-09-09/doc-infpwkss0560062.shtml](https://finance.sina.com.cn/tech/shenji/2025-09-09/doc-infpwkss0560062.shtml)
[11] 豆包大模型1.6-vision发布新闻. [https://so.html5.qq.com/page/real/search_news?docid=70000021_47668db984412052](https://so.html5.qq.com/page/real/search_news?docid=70000021_47668db984412052)
[12] DeepSeek-V3.2-Exp-Thinking开源新闻. [https://caifuhao.eastmoney.com/news/20250929185536609761470](https://caifuhao.eastmoney.com/news/20250929185536609761470)
[13] 中文大模型基准测评2025年9月报告. [https://www.sohu.com/a/945407063_122540770](https://www.sohu.com/a/945407063_122540770)
[14] 美团LongCat-Flash-Chat开源介绍. [https://www.qbitai.com/2025/09/327751.html](https://www.qbitai.com/2025/09/327751.html)
[15] AI大模型最新资讯2025年9月第1周. [https://zhuanlan.zhihu.com/p/1947392667626473463](https://zhuanlan.zhihu.com/p/1947392667626473463)
[16] 北京市行政复议垂直大模型发布会报道. [https://www.beijing.gov.cn/ywdt/gzdt/202509/t20250915_4202200.html](https://www.beijing.gov.cn/ywdt/gzdt/202509/t20250915_4202200.html)
[17] 全国首个行政复议垂直大模型亮相服贸会新闻. [https://sfj.beijing.gov.cn/sfj/sfdt/ywdt82/flfw93/743755890/index.html](https://sfj.beijing.gov.cn/sfj/sfdt/ywdt82/flfw93/743755890/index.html)
[18] “月球科学多模态专业大模型V2.0”相关报道. [https://so.html5.qq.com/page/real/search_news?docid=70000021_26168b56cde04952](https://so.html5.qq.com/page/real/search_news?docid=70000021_26168b56cde04952)
[19] 阿里巴巴通义实验室系列模型进展. [https://tongyi.aliyun.com/news?id=pxwhvf/suodqg/gbzl80oylrcv43kv](https://tongyi.aliyun.com/news?id=pxwhvf/suodqg/gbzl80oylrcv43kv)
[20] Sora 2 正式发布介绍. [https://openai.com/zh-Hans-CN/index/sora-2/](https://openai.com/zh-Hans-CN/index/sora-2/)
[21] 一文回顾OpenAI Sora 2发布解读. [https://www.thepaper.cn/newsDetail_forward_31713511](https://www.thepaper.cn/newsDetail_forward_31713511)
[22] OpenAI Sora应用下载与爆火报道. [https://news.aibase.com/zh/news/22376](https://news.aibase.com/zh/news/22376)
[23] Codex 全面升级页面. [https://openai.com/zh-Hans-CN/index/introducing-upgrades-to-codex/](https://openai.com/zh-Hans-CN/index/introducing-upgrades-to-codex/)
[24] Gemini 2.5 Flash Preview文档. [https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=zh-cn](https://docs.cloud.google.com/vertex-ai/generative-ai/docs/models/gemini/2-5-flash?hl=zh-cn)
[25] Gemini 2.5 Flash九月更新深度评测. [https://cloud.tencent.com/developer/article/2571786](https://cloud.tencent.com/developer/article/2571786)
[26] Meta Connect 2025大会介绍. [https://www.ithome.com/0/831/938.htm](https://www.ithome.com/0/831/938.htm)
[27] Meta Connect 2025智能眼镜发布新闻. [https://www.ebrun.com/20250918/602506.shtml](https://www.ebrun.com/20250918/602506.shtml)
[28] AI Agent元年相关产业分析报道. [https://www.sohu.com/a/848714538_121798711](https://www.sohu.com/a/848714538_121798711)
[29] 多模态大模型内容标识合规测评报道. [https://tech.gmw.cn/2025-09/03/content_38262998.htm](https://tech.gmw.cn/2025-09/03/content_38262998.htm)
[30] 2025年910月中国大模型备案与登记分析报告. [https://blog.csdn.net/meidaoliha/article/details/154779561](https://blog.csdn.net/meidaoliha/article/details/154779561)