24 KiB
下面的内容分两部分:(1) 2025年8月大模型及相关产品的核心发布更新,(2) 结合全年态势做一个“发展回顾+趋势判断”,方便你既看当月重点,也把它放回2025这整年里去理解。
一、2025年8月:大模型与AI产品关键发布
1. OpenAI:GPT‑5 正式发布(8月7–8日)
定位与发布形态
- GPT‑5 被官方称为“迄今为止最智能、最快速、最实用的模型”,是 OpenAI 新一代旗舰基础模型和 ChatGPT 的底座。[1][2]
- 统一架构:第一次把 GPT 系列(偏“快答”)与 o 系列推理模型(偏“深度思考”)整合到一个系统中,由路由器自动决定何时快速回答、何时进入深度推理。[1][2][3]
- 面向所有 ChatGPT 免费用户开放,Plus / Pro 用户在用量、推理深度等方面有更高配额和 Pro 版本。[2][4]
关键能力与技术指标
- 多模态:支持文本、图像、语音甚至视频的理解与生成,多模态从“可选功能”上升为默认能力。[1][3][5]
- 推理与编码能力大幅提升
- 数学:在 AIME 2025 测试中,在无工具辅助条件下正确率达到 94.6%,显著超越 GPT‑4 系列与 o3 等模型。[1][6]
- 编程:在 SWE‑bench 等编码基准上“屠榜”,支持从少量提示生成 200 行以上的完整应用;发布时多家媒体称其在编程上“惊艳”,被定位为“氛围编程(vibe coding)”的核心引擎。[3][7]
- 超长上下文:官方与业界报道普遍给出 128K–400K 级别上下文,面向长合同、代码库、论文集等场景。[1][8]
- 统一系统结构:
- 一个基础的“高效模型”处理大多数日常问题;
- 一个“GPT‑5 Thinking”思考模型负责复杂推理;
- 一个实时路由器负责在二者之间自动切换。[8]
- 价格与版本梯度:
- 标准版、Mini、Nano 多档,面向云端复杂任务、日常 API 使用、本地/嵌入式设备等不同场景。[1][6]
- 单位 tokens 成本进一步下降,有报道称在一些任务上的 API 价格仅为竞争对手(如 Claude Opus 4.1)约 1/10–1/15。[7]
生态与落地
- 微软同步宣布 GPT‑5 全面进入 Copilot、Microsoft 365 Copilot、Azure AI Foundry 与 GitHub Copilot 等产品线,实现全栈升级。[9]
- 对开发者提供专门的 GPT‑5 for Developers 版本,可通过
reasoning_effort等参数精细控制推理深度和延迟,支持更复杂的工具链调用与智能体任务。[10]
实质变化
- 功能形态上没有像 GPT‑4 那样“新奇功能大爆发”,但在推理、编码、多模态一致性、长上下文稳定性上做了“全方位补课+屠榜”。
- 行业普遍评价:从“炫技式创新”回归“工程能力与性价比”——更像是一次“实战化、产品化的大升级”。
2. DeepSeek:V3.1 大模型(8月19–21日)
发布时间线
- 8 月 19 日晚:DeepSeek 官方群通知“线上模型版本升级至 V3.1,上下文拓展至 128K”,网页 / App / 小程序同步更新。[11][12]
- 8 月 20 日凌晨:在 Hugging Face 上开源 V3.1‑Base,给出上下文 128K、参数约 685B 等技术信息。[12][13]
- 8 月 21 日:通过公众号、媒体正式官宣“DeepSeek‑V3.1 正式发布”,多家媒体以“迈向智能体时代的第一步”来解读。[14][15]
核心技术特征
- 混合推理架构(V3+R1 融合)[16][17]
- 一个模型内部同时支持“思考模式(reasoner)”和“非思考模式(chat)”:
- 简单任务时采用非思考模式,响应更快、更省 tokens;
- 复杂任务时自动或手动切换到思考模式,输出包含中间推理链。
- 本质上是把原来的对话模型 V3 与推理模型 R1 在权重与训练流程上深度融合,外部统一暴露为 V3.1。
- 一个模型内部同时支持“思考模式(reasoner)”和“非思考模式(chat)”:
- 规模与精度
- 总参数约 685B(MoE 稀疏专家架构),激活参数约 37B,每次推理只有部分专家参与。[13][18]
- 采用 UE8M0 FP8 Scale 精度格式,对国产 AI 芯片友好,显著提升在国产 GPU / 加速器上的利用率与能效。[19]
- 上下文与输出能力
- 上下文从 64K 扩展到 128K,可以稳定处理 10 万字级长文档、长代码库。
- 思考模式默认输出长度可到 32K,上限 64K;非思考模式默认约 4K,上限可到 8K,兼顾深度推理与泛用对话。[11][20]
- Agent(智能体)能力增强
- 通过强化后训练,对工具调用、搜索代理、代码代理等能力重点优化,在 SWE‑bench / Terminal‑bench 等智能体相关基准上显著提升。[15][18]
- API 端同时支持
deepseek-chat(非思考)和deepseek-reasoner(思考),并支持 strict Function Calling 以及 Anthropic API 兼容格式,方便从 Claude 生态迁移。[20]
成本与生态
- 官方宣布自 2025 年 9 月 6 日起,V3.1 的 API 调用价格:
- 输入价格最低可到 0.5 元 / 百万 tokens(缓存命中);
- 标准输入输出也远低于主流闭源模型单价。[21]
- 同时被多家云厂商(如阿里云百炼、Google Vertex AI)以 MaaS 方式引入,做为开源“高性价比”选项。[13][22]
关键意义
- 把“一个模型两种大脑”(思考 & 非思考)做成可运维、可商用的统一架构,是国内在推理时代大模型工程化上的一次标志性突破。
- 再叠加极致的性价比,使 DeepSeek 系列在全球开源和低成本推理市场里拥有了非常强的话语权。
3. 智谱 AI:AutoGLM 2.0 手机通用 Agent(8月20日)
产品定位
- AutoGLM 2.0 被智谱称为**“全球首个手机通用 Agent”**,[23][24]本质上是一个能代替人在手机 / 电脑上“动手操作”的执行型智能体,而不仅是一个聊天机器人。
- 底层由国产开源语言模型 GLM‑4.5 与视觉推理模型 GLM‑4.5V驱动,具备推理、代码、多模态理解能力。[23][25]
核心能力
- Agent + 云手机 / 云电脑 架构[23][26]
- 每个用户在云端对应一部“智能体手机”和一台“智能体电脑”(统一为 Android 14 + 固定配置),预装几十个高频 App。
- 所有自动化操作都在云端执行,用户本地设备资源不被占用,可以一边“AI干活”一边自己刷抖音、打游戏。
- 跨应用自动操作
- 生活场景:一句话就能让 AutoGLM 2.0 在美团、小红书、京东、抖音等 40+ 应用中完成“搜店–下单–使用优惠券–预约服务”等整套流程。[23][24][27]
- 办公场景:可以在浏览器、飞书、邮箱、知乎、微博等之间跨站检索、撰写文稿、生成视频 / PPT / 播客并直接发布。[24][28]
- 全天候后台执行
- Agent 可在云端 7x24 小时独立运行,后续会推出“定时任务”功能实现每天定时发帖、整理信息、下单外卖等自动 Routine。[23][26]
战略意义
- AutoGLM 2.0 把大模型从“对话 AI”升级为面向 C 端的大众化智能体:
- 对用户:让**“人人有一个云端数字打工人”**变成现实;
- 对开发者与硬件厂商:其执行能力封装为 API,可嵌入手机、眼镜、家电等多种设备,成为国产 Agent 生态基础设施之一。[23][29]
4. 钉钉 8.0(AI 钉钉 1.0,8月25日)
版本定位
- 8 月 25 日,钉钉 发布 8.0 版本,被官方定义为**“AI 钉钉 1.0”**。[30][31]
- 标志着国内日活级协同办公应用正式转向**“AI 原生”**:产品形态从“聊天 + OA”重构为以 AI 为核心的工作平台。
主要更新
- 发布 10+ 款 AI 产品[30][32]
- 钉钉 ONE:下一代 AI 办公入口,人与 AI 通过自然语言交互的统一界面;
- 企业 AI 搜索引擎“AI 搜问”:结合大模型问答 + 企业权限知识库,做“企业级 Copilot”;
- AI 表格、AI 听记、AI 文档等一整套智能办公组件;
- 首款 AI 硬件 DingTalk A1:超薄录音卡片,对接 AI 听记与语音助手。
- 模型融合引擎 AI Fusion[31][33]
- 集成全球 50+ 种主流大模型,支持在相同问题下快速对比不同模型的效果;
- 企业可基于效果、成本、安全性等维度选择或组合最佳模型,实现“多模型编排”。
意义
- 对内:钉钉 8.0 是阿里系在 ToB 协同办公赛道上全面“AI 化”的里程碑,产品形态和工作流被 AI 重写。
- 对行业:进一步验证了一个趋势——大模型真正落地时,形态往往是“AI 原生应用”和“企业智能体系统”,而不是单独的模型 API。
二、2025 年大模型发展回顾与趋势总结(聚焦 8 月所处的“时间点”)
8 月这批发布,其实出现在 2025 年一整条技术与产业演进曲线的“高点”上,理解这条曲线可以帮助你把握后续几年方向。
1. 技术侧:从“堆规模”转向“重推理、重架构”
综合 2025 年多份趋势报告与年终回顾文章,可以清晰看到几条主线:[34][35][36]
- 架构层:MoE + 混合推理成为主流
- MoE 稀疏专家架构回归主舞台,与稀疏注意力等技术一起,在有限算力下支撑“万亿级”参数和长上下文。
- DeepSeek V3.1 把“对话模型 + 推理模型”融合为统一架构,OpenAI GPT‑5 则以“统一系统 + 路由器”整合 GPT 系列与 o 系列,本质上是同一方向:一个模型内部实现快思考 / 慢思考两种工作模式。
- 训练范式:从 RLHF 向 RLVR 演进
- 行业开始从“人类喜好对齐(RLHF)”向“可验证奖励强化学习(RLVR)”转变,使模型在数学推理、程序生成这类可自动验证任务中持续自我提升。[34][36]
- 多模态:从拼接式到原生多模态
- 头部模型(GPT‑5、Gemini 3、GLM‑4.5 系列等)把文本、图像、音频、视频统一到一个原生多模态架构里,多模态从“附加 feature”变成标准配置与核心卖点。
- 长上下文与记忆
- 128K–2M tokens 上下文窗口逐渐常态化,辅以检索增强生成(RAG)与记忆系统,使模型能在长期会话、项目级协作、代码仓库理解中保持连贯性。
8 月的 GPT‑5 与 DeepSeek V3.1,正是上述趋势的集中体现:一个是闭源顶级实验室的统一推理系统,一个是国产开源阵营的混合推理代表。
2. 市场格局:中美路线分化,开源与闭源“对峙升级”
多份 2025 年白皮书和年度盘点,对格局的共识大致如下:[34][37][38]
- 美国:闭源高性能 + 全栈生态
- OpenAI、Google 继续主导高端闭源模型,依托云平台、生产力套件、操作系统形成“从芯片到应用”的闭环。
- 商业模式依赖 API 经济和 SaaS 订阅,以高性能、高稳定性和安全合规能力换取溢价。
- 中国:开源 + 高性价比 + 本地生态
- DeepSeek、Qwen、GLM、豆包等国产模型凭借开源权重、极致性价比与对中文场景的适配,快速缩小与闭源巨头的差距,有些指标甚至实现超越。
- 国家层面在算力基础设施、数据要素市场、行业应用试点上给出系统性支持,使中国在**“AI 普惠化+产业落地”**上形成比较优势。
8 月的 GPT‑5 vs DeepSeek V3.1,可以视作这两条路线在“推理时代”的一次正面交锋与互相逼近。
3. 应用层:从“通用问答”走向“智能体与 AI 原生应用”
2025 年的另一个关键词是:Agent(智能体)爆发。[39][40]
- 国外有 Manus 等通用智能体,国内则有 AutoGLM、豆包手机助手等:
- 它们不仅能“回答问题”,更能根据自然语言指令去规划步骤、调用工具、执行跨应用操作,完成一整套现实任务。
- 8 月的两个重磅里程碑:
- AutoGLM 2.0:把手机变成“AI 的手和眼”,用户给目标、AI 去执行,是典型的 ToC 智能体形态。
- 钉钉 8.0:把企业协同工作流整体重构为 AI 驱动,是典型的 ToB AI 原生应用形态。
可以说,“问答型大模型 → 任务型智能体 → AI 原生应用 / 平台”,构成了 2025 年应用层进化的主线,而 8 月的一系列发布刚好把三者连在了一起。
4. 商业化与成本:大模型进入“可持续经营”阶段
- 多家市场研究机构预计:2025 年全球 AI 大模型市场规模已达数百亿美元,中国市场规模接近或突破 500 亿元,且仍然保持高双位数甚至三位数增长。[41][42]
- 成本战与性价比之战白热化:
- DeepSeek、国产 Qwen / GLM 等把训练与推理成本压到主流闭源的 1/15–1/70,使“便宜好用”的开源 / 国产模型具备了大规模商用条件。
- GPT‑5 也不得不在价格上大幅下调,通过高性能+降价来守住高端用户与开发者生态。
整体来看,2025 年是大模型从“烧钱扩张”向“成本效益与可持续商业模式”转型的关键一年。
5. 风险与治理:技术走向“可控、可信”的长坡
尽管性能不断提升,但行业共识也在收紧:幻觉、安全、合规是大模型落地绕不开的三座大山。[34][36]
- 技术应对:
- 更大规模检索增强(RAG)、事实校验、工具调用;
- 更严格的对齐与安全过滤;
- 从 RLHF 走向更可验证的 RLVR。
- 治理与监管:
- 各国陆续推出 AI 安全与治理框架,对数据、输出内容、责任边界提出要求;
- 企业在部署 GPT‑5、DeepSeek、AutoGLM 等系统时,越来越多从“玩”转为“纳入风控与合规体系”。
三、对你的“落地参考建议”
结合 2025 年 8 月的发布与全年趋势,可以给出几条相对“可操作”的判断,供你在选型、规划或写报告时参考:
-
如果你关注的是“通用对话 + 编程/分析能力”
- GPT‑5 目前仍是综合能力与生态配套最强的闭源选项,更适合:
- 高价值场景(复杂编程、科研、跨模态分析);
- 对安全合规、SLA 要求较高的大型企业。
- 对成本非常敏感、且可接受一定工程集成工作的团队,可以重点评估 DeepSeek V3.1 这类开源 / 低价模型。
- GPT‑5 目前仍是综合能力与生态配套最强的闭源选项,更适合:
-
如果你关注的是“执行型智能体与自动化”
- To C 场景(个人效率、消费级产品):
- AutoGLM 2.0 是一个极具代表性的“手机 Agent 模板”,可借鉴其“云手机 + 端分离”的架构理念。
- To B 场景(办公、组织协同):
- 钉钉 8.0 展示了“AI 重构工作流”的整体蓝图——不是简单给每个功能加 AI,而是用 Agent 驱动整个工作信息流和应用入口。
- To C 场景(个人效率、消费级产品):
-
国产化与本地生态路线
- 若需国产算力 / 本地部署或开源可控,DeepSeek V3.1、GLM‑4.5 系列、Qwen 等都是核心选项;
- 建议不要只看单点跑分,更要看:
- 是否有混合推理架构(思考/非思考双模式);
- 是否支持 128K 以上上下文;
- 是否有完善的 Agent / 工具调用 / 检索增强方案。
-
未来 1–2 年的技术押注方向
- 在研究或产品规划上,可以重点关注:
- 混合推理架构:统一快思考(chat)与慢思考(reasoner);
- 原生多模态:文本 + 图像 + 音频 + 视频的一体化模型;
- 智能体系统:从单模型 API 向多模型编排 + 工具链 + 工作流平台演进;
- 成本优化与国产算力适配:FP8/INT4 量化、异构算力调度。
- 在研究或产品规划上,可以重点关注:
一句话小结:
- 2025 年 8 月,可以被看作“大模型推理时代”和“智能体时代”在产品层面正式合流的时间点。
- GPT‑5、DeepSeek V3.1、AutoGLM 2.0 与钉钉 8.0,分别代表了:顶级闭源推理模型、开源高性价比推理模型、C 端执行型智能体和 B 端 AI 原生应用四个方向的标杆。
- 从这一刻起,大模型不再只是“更会聊”,而是真正开始成为个人与企业的“数字员工”和“自动化操作系统”。
References
[1] 2025年8月8日信息差:OpenAI正式发布GPT‑5模型…… 抖音视频概要. https://www.douyin.com/video/7536232091173719356
[2] OpenAI推出GPT‑5:迈向通用人工智能道路上的“重要一步”. 新浪财经. https://finance.sina.com.cn/stock/usstock/c/2025-08-08/doc-infketkp9659383.shtml
[3] GPT‑5首秀:性能“屠榜”背后的体验分化与治理空窗. 智源社区. https://hub.baai.ac.cn/view/48024
[4] OpenAI正式发布GPT‑5. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_028689540e967952
[5] GPT‑5正式发布: 与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?. 新浪财经头条. https://cj.sina.com.cn/articles/view/1736207384/677c6c18001016h0c
[6] OpenAI 发布的新一代旗舰模型 GPT‑5. CSDN 博客. https://blog.csdn.net/DK_Allen/article/details/150212193
[7] 一文读懂GPT‑5发布会|价格屠夫、编程惊艳,新功能乏善可陈. 华尔街见闻. https://wallstreetcn.com/articles/3752905
[8] 隆重推出GPT‑5. OpenAI 官方页面. https://openai.com/zh-Hans-CN/index/introducing-gpt-5/
[9] GPT‑5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你. IT之家. https://www.ithome.com/0/873/840.htm
[10] 隆重推出面向开发人员的GPT‑5. OpenAI 官方页面. https://openai.com/zh-Hans-CN/index/introducing-gpt-5-for-developers/
[11] DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至128k. 腾讯新闻. https://new.qq.com/rain/a/20250819A082IA00
[12] DeepSeek 开源新模型 V3.1:上下文长度拓展至 128K. IT之家. https://www.ithome.com/0/876/637.htm
[13] DeepSeek-V3.1 Base 模型说明. ModelScope/DeepSeek-V3.1. https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V3.1/
[14] DeepSeek-V3.1 正式发布. DeepSeek 官方新闻. https://api-docs.deepseek.com/zh-cn/news/news250821
[15] DeepSeek-V3.1正式发布. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_95768a6c06442752
[16] DeepSeek V3.1:混合推理模型发布、代理能力强化与前沿解读. 知乎专栏. https://zhuanlan.zhihu.com/p/1942241093564490308
[17] 128K上下文只是“配菜”,V3+R1模型融合才是重点!腾讯云开发者社区. https://cloud.tencent.com/developer/news/2885016
[18] DeepSeek V3.1开源发布:128K上下文60TPS生成速度…… CSDN 博客. https://blog.csdn.net/qq_41687670/article/details/150544864
[19] DeepSeek-V3.1正式发布 UE8M0 FP8技术助力国产芯片加速追赶. 财联社. https://www.cls.cn/detail/2122457
[20] DeepSeek-V3.1发布,重视国产算力、液冷(研究报告节选 PDF). 东方财富. https://pdf.dfcfw.com/pdf/H3_AP202508241733403261_1.pdf
[21] 官宣!DeepSeek‑V3.1 发布,API调用价格低至0.5元/百万tokens. 新浪科技. https://finance.sina.com.cn/tech/2025-08-21/doc-infmtrwz9394786.shtml
[22] DeepSeek-V3.1 | Google Cloud Vertex AI 文档. https://cloud.google.com/vertex-ai/generative-ai/docs/maas/deepseek/deepseek-v31
[23] 智谱发布AutoGLM 2.0:全球首个手机Agent,云端自主完成任务. IT之家. https://www.ithome.com/0/876/731.htm
[24] 智谱发布手机通用Agent“AutoGLM 2.0”. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_18468a5636055352
[25] 智谱发布手机智能体AutoGLM 2.0. 科技日报. https://www.stdaily.com/web/gdxw/2025-08/20/content_388086.html
[26] 全球首个手机Agent,智谱发布 AutoGLM 2.0. 时代财经. https://so.html5.qq.com/page/real/search_news?docid=70000021_12268a5653c89052
[27] 一句话就能点外卖、订机票!智谱推出国产云端智能体. 央广网科技. https://tech.cnr.cn/techyw/kan/20250821/t20250821_527330651.shtml
[28] 科学网:沉思2.0将给手机免费装上AI助理. https://news.sciencenet.cn/sbhtmlnews/2025/8/386149.shtm
[29] AutoGLM 2.0发布:既生智谱,何生DeepSeek. 东方财富网. https://finance.eastmoney.com/a/202508213490806556.html
[30] 钉钉发布8.0版本推出超10款AI产品,支持50种大模型效果对比. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_58268ac26f626652
[31] 钉钉8.0版本今日发布,正式迈向AI原生. 腾讯新闻. https://new.qq.com/rain/a/20250825A07KFA00
[32] 钉钉发布超10款AI产品. 新浪财经. https://finance.sina.com.cn/jjxw/2025-08-26/doc-infnhvhf8294719.shtml
[33] 钉钉发布8.0版本,数10款AI产品亮相. 经济参考报. http://jjckb.xinhuanet.com/20250826/cf042a1a40154923ae5c8844ff0d4775/c.html
[34] 2025年AI大模型开发生态白皮书. 搜狐科技转载. https://www.sohu.com/a/956903063_121838586
[35] 2025大模型进化论:“规模定律”见顶?三条新脉络重构AI未来. 腾讯新闻聚合. https://so.html5.qq.com/page/real/search_news?docid=70000021_7926943d10d83452
[36] 【翻译】2025年:大语言模型年度回顾. 腾讯云开发者社区. https://cloud.tencent.com/developer/article/2614431
[37] 2025 AI 大模型开发生态白皮书(摘要版). 算泥社区. https://www.aigcopen.com/content/omni-channel/39246.html
[38] 2025中国AI大模型产业图谱2.0版 重磅发布. CSDN 博客. https://blog.csdn.net/ympzuelx3aiap7q/article/details/155142702
[39] AI大模型趋势报告丨2025Q1: 从“思考型模型”到中国AI崛起. 腾讯新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_2876830178948052
[40] 2025人工智能大事件回顾丨中国AI大模型篇. 智源社区. https://hub.baai.ac.cn/view/51710
[41] 2025年AI大模型行业现状与发展趋势分析. 中研网. https://m.chinairn.com/hyzx/20250210/16300959.shtml
[42] 2025年AI大模型市场规模及发展前景分析. 中研网. https://m.chinairn.com/scfx/20250212/151844941.shtml