ai-doc/8月.md at 235af5a4de9cc9e8f606bf6ece229b2935148405

24 KiB

Raw Blame History

下面的内容分两部分：(1) 2025年8月大模型及相关产品的核心发布更新，(2) 结合全年态势做一个“发展回顾+趋势判断”，方便你既看当月重点，也把它放回2025这整年里去理解。

一、2025年8月：大模型与AI产品关键发布

1. OpenAI：GPT‑5 正式发布（8月7–8日）

定位与发布形态

GPT‑5 被官方称为“迄今为止最智能、最快速、最实用的模型”，是 OpenAI 新一代旗舰基础模型和 ChatGPT 的底座。[1][2]
统一架构：第一次把 GPT 系列（偏“快答”）与 o 系列推理模型（偏“深度思考”）整合到一个系统中，由路由器自动决定何时快速回答、何时进入深度推理。[1][2][3]
面向所有 ChatGPT 免费用户开放，Plus / Pro 用户在用量、推理深度等方面有更高配额和 Pro 版本。[2][4]

关键能力与技术指标

多模态：支持文本、图像、语音甚至视频的理解与生成，多模态从“可选功能”上升为默认能力。[1][3][5]
推理与编码能力大幅提升
- 数学：在 AIME 2025 测试中，在无工具辅助条件下正确率达到 94.6%，显著超越 GPT‑4 系列与 o3 等模型。[1][6]
- 编程：在 SWE‑bench 等编码基准上“屠榜”，支持从少量提示生成 200 行以上的完整应用；发布时多家媒体称其在编程上“惊艳”，被定位为“氛围编程（vibe coding）”的核心引擎。[3][7]
超长上下文：官方与业界报道普遍给出 128K–400K 级别上下文，面向长合同、代码库、论文集等场景。[1][8]
统一系统结构：
- 一个基础的“高效模型”处理大多数日常问题；
- 一个“GPT‑5 Thinking”思考模型负责复杂推理；
- 一个实时路由器负责在二者之间自动切换。[8]
价格与版本梯度：
- 标准版、Mini、Nano 多档，面向云端复杂任务、日常 API 使用、本地/嵌入式设备等不同场景。[1][6]
- 单位 tokens 成本进一步下降，有报道称在一些任务上的 API 价格仅为竞争对手（如 Claude Opus 4.1）约 1/10–1/15。[7]

生态与落地

微软同步宣布 GPT‑5 全面进入 Copilot、Microsoft 365 Copilot、Azure AI Foundry 与 GitHub Copilot 等产品线，实现全栈升级。[9]
对开发者提供专门的 GPT‑5 for Developers 版本，可通过 reasoning_effort 等参数精细控制推理深度和延迟，支持更复杂的工具链调用与智能体任务。[10]

实质变化

功能形态上没有像 GPT‑4 那样“新奇功能大爆发”，但在推理、编码、多模态一致性、长上下文稳定性上做了“全方位补课+屠榜”。
行业普遍评价：从“炫技式创新”回归“工程能力与性价比”——更像是一次“实战化、产品化的大升级”。

2. DeepSeek：V3.1 大模型（8月19–21日）

发布时间线

8 月 19 日晚：DeepSeek 官方群通知“线上模型版本升级至 V3.1，上下文拓展至 128K”，网页 / App / 小程序同步更新。[11][12]
8 月 20 日凌晨：在 Hugging Face 上开源 V3.1‑Base，给出上下文 128K、参数约 685B 等技术信息。[12][13]
8 月 21 日：通过公众号、媒体正式官宣“DeepSeek‑V3.1 正式发布”，多家媒体以“迈向智能体时代的第一步”来解读。[14][15]

核心技术特征

混合推理架构（V3+R1 融合）[16][17]
- 一个模型内部同时支持“思考模式（reasoner）”和“非思考模式（chat）”：
  - 简单任务时采用非思考模式，响应更快、更省 tokens；
  - 复杂任务时自动或手动切换到思考模式，输出包含中间推理链。
- 本质上是把原来的对话模型 V3 与推理模型 R1 在权重与训练流程上深度融合，外部统一暴露为 V3.1。
规模与精度
- 总参数约 685B（MoE 稀疏专家架构），激活参数约 37B，每次推理只有部分专家参与。[13][18]
- 采用 UE8M0 FP8 Scale 精度格式，对国产 AI 芯片友好，显著提升在国产 GPU / 加速器上的利用率与能效。[19]
上下文与输出能力
- 上下文从 64K 扩展到 128K，可以稳定处理 10 万字级长文档、长代码库。
- 思考模式默认输出长度可到 32K，上限 64K；非思考模式默认约 4K，上限可到 8K，兼顾深度推理与泛用对话。[11][20]
Agent（智能体）能力增强
- 通过强化后训练，对工具调用、搜索代理、代码代理等能力重点优化，在 SWE‑bench / Terminal‑bench 等智能体相关基准上显著提升。[15][18]
- API 端同时支持 deepseek-chat（非思考）和 deepseek-reasoner（思考），并支持 strict Function Calling 以及 Anthropic API 兼容格式，方便从 Claude 生态迁移。[20]

成本与生态

官方宣布自 2025 年 9 月 6 日起，V3.1 的 API 调用价格：
- 输入价格最低可到 0.5 元 / 百万 tokens（缓存命中）；
- 标准输入输出也远低于主流闭源模型单价。[21]
同时被多家云厂商（如阿里云百炼、Google Vertex AI）以 MaaS 方式引入，做为开源“高性价比”选项。[13][22]

关键意义

把“一个模型两种大脑”（思考 & 非思考）做成可运维、可商用的统一架构，是国内在推理时代大模型工程化上的一次标志性突破。
再叠加极致的性价比，使 DeepSeek 系列在全球开源和低成本推理市场里拥有了非常强的话语权。

3. 智谱 AI：AutoGLM 2.0 手机通用 Agent（8月20日）

产品定位

AutoGLM 2.0 被智谱称为**“全球首个手机通用 Agent”**，[23][24]本质上是一个能代替人在手机 / 电脑上“动手操作”的执行型智能体，而不仅是一个聊天机器人。
底层由国产开源语言模型 GLM‑4.5 与视觉推理模型 GLM‑4.5V驱动，具备推理、代码、多模态理解能力。[23][25]

核心能力

Agent + 云手机 / 云电脑架构[23][26]
- 每个用户在云端对应一部“智能体手机”和一台“智能体电脑”（统一为 Android 14 + 固定配置），预装几十个高频 App。
- 所有自动化操作都在云端执行，用户本地设备资源不被占用，可以一边“AI干活”一边自己刷抖音、打游戏。
跨应用自动操作
- 生活场景：一句话就能让 AutoGLM 2.0 在美团、小红书、京东、抖音等 40+ 应用中完成“搜店–下单–使用优惠券–预约服务”等整套流程。[23][24][27]
- 办公场景：可以在浏览器、飞书、邮箱、知乎、微博等之间跨站检索、撰写文稿、生成视频 / PPT / 播客并直接发布。[24][28]
全天候后台执行
- Agent 可在云端 7x24 小时独立运行，后续会推出“定时任务”功能实现每天定时发帖、整理信息、下单外卖等自动 Routine。[23][26]

战略意义

AutoGLM 2.0 把大模型从“对话 AI”升级为面向 C 端的大众化智能体：
- 对用户：让**“人人有一个云端数字打工人”**变成现实；
- 对开发者与硬件厂商：其执行能力封装为 API，可嵌入手机、眼镜、家电等多种设备，成为国产 Agent 生态基础设施之一。[23][29]

4. 钉钉 8.0（AI 钉钉 1.0，8月25日）

版本定位

8 月 25 日，钉钉发布 8.0 版本，被官方定义为**“AI 钉钉 1.0”**。[30][31]
标志着国内日活级协同办公应用正式转向**“AI 原生”**：产品形态从“聊天 + OA”重构为以 AI 为核心的工作平台。

主要更新

发布 10+ 款 AI 产品[30][32]
- 钉钉 ONE：下一代 AI 办公入口，人与 AI 通过自然语言交互的统一界面；
- 企业 AI 搜索引擎“AI 搜问”：结合大模型问答 + 企业权限知识库，做“企业级 Copilot”；
- AI 表格、AI 听记、AI 文档等一整套智能办公组件；
- 首款 AI 硬件 DingTalk A1：超薄录音卡片，对接 AI 听记与语音助手。
模型融合引擎 AI Fusion[31][33]
- 集成全球 50+ 种主流大模型，支持在相同问题下快速对比不同模型的效果；
- 企业可基于效果、成本、安全性等维度选择或组合最佳模型，实现“多模型编排”。

意义

对内：钉钉 8.0 是阿里系在 ToB 协同办公赛道上全面“AI 化”的里程碑，产品形态和工作流被 AI 重写。
对行业：进一步验证了一个趋势——大模型真正落地时，形态往往是“AI 原生应用”和“企业智能体系统”，而不是单独的模型 API。

二、2025 年大模型发展回顾与趋势总结（聚焦 8 月所处的“时间点”）

8 月这批发布，其实出现在 2025 年一整条技术与产业演进曲线的“高点”上，理解这条曲线可以帮助你把握后续几年方向。

1. 技术侧：从“堆规模”转向“重推理、重架构”

综合 2025 年多份趋势报告与年终回顾文章，可以清晰看到几条主线：[34][35][36]

架构层：MoE + 混合推理成为主流
- MoE 稀疏专家架构回归主舞台，与稀疏注意力等技术一起，在有限算力下支撑“万亿级”参数和长上下文。
- DeepSeek V3.1 把“对话模型 + 推理模型”融合为统一架构，OpenAI GPT‑5 则以“统一系统 + 路由器”整合 GPT 系列与 o 系列，本质上是同一方向：一个模型内部实现快思考 / 慢思考两种工作模式。
训练范式：从 RLHF 向 RLVR 演进
- 行业开始从“人类喜好对齐（RLHF）”向“可验证奖励强化学习（RLVR）”转变，使模型在数学推理、程序生成这类可自动验证任务中持续自我提升。[34][36]
多模态：从拼接式到原生多模态
- 头部模型（GPT‑5、Gemini 3、GLM‑4.5 系列等）把文本、图像、音频、视频统一到一个原生多模态架构里，多模态从“附加 feature”变成标准配置与核心卖点。
长上下文与记忆
- 128K–2M tokens 上下文窗口逐渐常态化，辅以检索增强生成（RAG）与记忆系统，使模型能在长期会话、项目级协作、代码仓库理解中保持连贯性。

8 月的 GPT‑5 与 DeepSeek V3.1，正是上述趋势的集中体现：一个是闭源顶级实验室的统一推理系统，一个是国产开源阵营的混合推理代表。

2. 市场格局：中美路线分化，开源与闭源“对峙升级”

多份 2025 年白皮书和年度盘点，对格局的共识大致如下：[34][37][38]

美国：闭源高性能 + 全栈生态
- OpenAI、Google 继续主导高端闭源模型，依托云平台、生产力套件、操作系统形成“从芯片到应用”的闭环。
- 商业模式依赖 API 经济和 SaaS 订阅，以高性能、高稳定性和安全合规能力换取溢价。
中国：开源 + 高性价比 + 本地生态
- DeepSeek、Qwen、GLM、豆包等国产模型凭借开源权重、极致性价比与对中文场景的适配，快速缩小与闭源巨头的差距，有些指标甚至实现超越。
- 国家层面在算力基础设施、数据要素市场、行业应用试点上给出系统性支持，使中国在**“AI 普惠化＋产业落地”**上形成比较优势。

8 月的 GPT‑5 vs DeepSeek V3.1，可以视作这两条路线在“推理时代”的一次正面交锋与互相逼近。

3. 应用层：从“通用问答”走向“智能体与 AI 原生应用”

2025 年的另一个关键词是：Agent（智能体）爆发。[39][40]

国外有 Manus 等通用智能体，国内则有 AutoGLM、豆包手机助手等：
- 它们不仅能“回答问题”，更能根据自然语言指令去规划步骤、调用工具、执行跨应用操作，完成一整套现实任务。
8 月的两个重磅里程碑：
- AutoGLM 2.0：把手机变成“AI 的手和眼”，用户给目标、AI 去执行，是典型的 ToC 智能体形态。
- 钉钉 8.0：把企业协同工作流整体重构为 AI 驱动，是典型的 ToB AI 原生应用形态。

可以说，“问答型大模型 → 任务型智能体 → AI 原生应用 / 平台”，构成了 2025 年应用层进化的主线，而 8 月的一系列发布刚好把三者连在了一起。

4. 商业化与成本：大模型进入“可持续经营”阶段

多家市场研究机构预计：2025 年全球 AI 大模型市场规模已达数百亿美元，中国市场规模接近或突破 500 亿元，且仍然保持高双位数甚至三位数增长。[41][42]
成本战与性价比之战白热化：
- DeepSeek、国产 Qwen / GLM 等把训练与推理成本压到主流闭源的 1/15–1/70，使“便宜好用”的开源 / 国产模型具备了大规模商用条件。
- GPT‑5 也不得不在价格上大幅下调，通过高性能+降价来守住高端用户与开发者生态。

整体来看，2025 年是大模型从“烧钱扩张”向“成本效益与可持续商业模式”转型的关键一年。

5. 风险与治理：技术走向“可控、可信”的长坡

尽管性能不断提升，但行业共识也在收紧：幻觉、安全、合规是大模型落地绕不开的三座大山。[34][36]

技术应对：
- 更大规模检索增强（RAG）、事实校验、工具调用；
- 更严格的对齐与安全过滤；
- 从 RLHF 走向更可验证的 RLVR。
治理与监管：
- 各国陆续推出 AI 安全与治理框架，对数据、输出内容、责任边界提出要求；
- 企业在部署 GPT‑5、DeepSeek、AutoGLM 等系统时，越来越多从“玩”转为“纳入风控与合规体系”。

三、对你的“落地参考建议”

结合 2025 年 8 月的发布与全年趋势，可以给出几条相对“可操作”的判断，供你在选型、规划或写报告时参考：

如果你关注的是“通用对话 + 编程/分析能力”
- GPT‑5 目前仍是综合能力与生态配套最强的闭源选项，更适合：
  - 高价值场景（复杂编程、科研、跨模态分析）；
  - 对安全合规、SLA 要求较高的大型企业。
- 对成本非常敏感、且可接受一定工程集成工作的团队，可以重点评估 DeepSeek V3.1 这类开源 / 低价模型。
如果你关注的是“执行型智能体与自动化”
- To C 场景（个人效率、消费级产品）：
  - AutoGLM 2.0 是一个极具代表性的“手机 Agent 模板”，可借鉴其“云手机 + 端分离”的架构理念。
- To B 场景（办公、组织协同）：
  - 钉钉 8.0 展示了“AI 重构工作流”的整体蓝图——不是简单给每个功能加 AI，而是用 Agent 驱动整个工作信息流和应用入口。
国产化与本地生态路线
- 若需国产算力 / 本地部署或开源可控，DeepSeek V3.1、GLM‑4.5 系列、Qwen 等都是核心选项；
- 建议不要只看单点跑分，更要看：
  - 是否有混合推理架构（思考/非思考双模式）；
  - 是否支持 128K 以上上下文；
  - 是否有完善的 Agent / 工具调用 / 检索增强方案。
未来 1–2 年的技术押注方向
- 在研究或产品规划上，可以重点关注：
  - 混合推理架构：统一快思考（chat）与慢思考（reasoner）；
  - 原生多模态：文本 + 图像 + 音频 + 视频的一体化模型；
  - 智能体系统：从单模型 API 向多模型编排 + 工具链 + 工作流平台演进；
  - 成本优化与国产算力适配：FP8/INT4 量化、异构算力调度。

一句话小结：

2025 年 8 月，可以被看作“大模型推理时代”和“智能体时代”在产品层面正式合流的时间点。
GPT‑5、DeepSeek V3.1、AutoGLM 2.0 与钉钉 8.0，分别代表了：顶级闭源推理模型、开源高性价比推理模型、C 端执行型智能体和 B 端 AI 原生应用四个方向的标杆。
从这一刻起，大模型不再只是“更会聊”，而是真正开始成为个人与企业的“数字员工”和“自动化操作系统”。

References

[1] 2025年8月8日信息差：OpenAI正式发布GPT‑5模型…… 抖音视频概要. https://www.douyin.com/video/7536232091173719356
[2] OpenAI推出GPT‑5：迈向通用人工智能道路上的“重要一步”. 新浪财经. https://finance.sina.com.cn/stock/usstock/c/2025-08-08/doc-infketkp9659383.shtml
[3] GPT‑5首秀：性能“屠榜”背后的体验分化与治理空窗. 智源社区. https://hub.baai.ac.cn/view/48024
[4] OpenAI正式发布GPT‑5. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_028689540e967952
[5] GPT‑5正式发布: 与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?. 新浪财经头条. https://cj.sina.com.cn/articles/view/1736207384/677c6c18001016h0c
[6] OpenAI 发布的新一代旗舰模型 GPT‑5. CSDN 博客. https://blog.csdn.net/DK_Allen/article/details/150212193
[7] 一文读懂GPT‑5发布会｜价格屠夫、编程惊艳，新功能乏善可陈. 华尔街见闻. https://wallstreetcn.com/articles/3752905
[8] 隆重推出GPT‑5. OpenAI 官方页面. https://openai.com/zh-Hans-CN/index/introducing-gpt-5/
[9] GPT‑5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你. IT之家. https://www.ithome.com/0/873/840.htm
[10] 隆重推出面向开发人员的GPT‑5. OpenAI 官方页面. https://openai.com/zh-Hans-CN/index/introducing-gpt-5-for-developers/
[11] DeepSeek 通知线上模型版本升级至 V3.1，上下文长度拓展至128k. 腾讯新闻. https://new.qq.com/rain/a/20250819A082IA00
[12] DeepSeek 开源新模型 V3.1：上下文长度拓展至 128K. IT之家. https://www.ithome.com/0/876/637.htm
[13] DeepSeek-V3.1 Base 模型说明. ModelScope/DeepSeek-V3.1. https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V3.1/
[14] DeepSeek-V3.1 正式发布. DeepSeek 官方新闻. https://api-docs.deepseek.com/zh-cn/news/news250821
[15] DeepSeek-V3.1正式发布. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_95768a6c06442752
[16] DeepSeek V3.1：混合推理模型发布、代理能力强化与前沿解读. 知乎专栏. https://zhuanlan.zhihu.com/p/1942241093564490308
[17] 128K上下文只是“配菜”，V3+R1模型融合才是重点！腾讯云开发者社区. https://cloud.tencent.com/developer/news/2885016
[18] DeepSeek V3.1开源发布：128K上下文60TPS生成速度…… CSDN 博客. https://blog.csdn.net/qq_41687670/article/details/150544864
[19] DeepSeek-V3.1正式发布 UE8M0 FP8技术助力国产芯片加速追赶. 财联社. https://www.cls.cn/detail/2122457
[20] DeepSeek-V3.1发布，重视国产算力、液冷（研究报告节选 PDF）. 东方财富. https://pdf.dfcfw.com/pdf/H3_AP202508241733403261_1.pdf
[21] 官宣！DeepSeek‑V3.1 发布，API调用价格低至0.5元/百万tokens. 新浪科技. https://finance.sina.com.cn/tech/2025-08-21/doc-infmtrwz9394786.shtml
[22] DeepSeek-V3.1 | Google Cloud Vertex AI 文档. https://cloud.google.com/vertex-ai/generative-ai/docs/maas/deepseek/deepseek-v31
[23] 智谱发布AutoGLM 2.0：全球首个手机Agent，云端自主完成任务. IT之家. https://www.ithome.com/0/876/731.htm
[24] 智谱发布手机通用Agent“AutoGLM 2.0”. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_18468a5636055352
[25] 智谱发布手机智能体AutoGLM 2.0. 科技日报. https://www.stdaily.com/web/gdxw/2025-08/20/content_388086.html
[26] 全球首个手机Agent，智谱发布 AutoGLM 2.0. 时代财经. https://so.html5.qq.com/page/real/search_news?docid=70000021_12268a5653c89052
[27] 一句话就能点外卖、订机票！智谱推出国产云端智能体. 央广网科技. https://tech.cnr.cn/techyw/kan/20250821/t20250821_527330651.shtml
[28] 科学网：沉思2.0将给手机免费装上AI助理. https://news.sciencenet.cn/sbhtmlnews/2025/8/386149.shtm
[29] AutoGLM 2.0发布：既生智谱，何生DeepSeek. 东方财富网. https://finance.eastmoney.com/a/202508213490806556.html
[30] 钉钉发布8.0版本推出超10款AI产品，支持50种大模型效果对比. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_58268ac26f626652
[31] 钉钉8.0版本今日发布，正式迈向AI原生. 腾讯新闻. https://new.qq.com/rain/a/20250825A07KFA00
[32] 钉钉发布超10款AI产品. 新浪财经. https://finance.sina.com.cn/jjxw/2025-08-26/doc-infnhvhf8294719.shtml
[33] 钉钉发布8.0版本，数10款AI产品亮相. 经济参考报. http://jjckb.xinhuanet.com/20250826/cf042a1a40154923ae5c8844ff0d4775/c.html
[34] 2025年AI大模型开发生态白皮书. 搜狐科技转载. https://www.sohu.com/a/956903063_121838586
[35] 2025大模型进化论：“规模定律”见顶？三条新脉络重构AI未来. 腾讯新闻聚合. https://so.html5.qq.com/page/real/search_news?docid=70000021_7926943d10d83452
[36] 【翻译】2025年：大语言模型年度回顾. 腾讯云开发者社区. https://cloud.tencent.com/developer/article/2614431
[37] 2025 AI 大模型开发生态白皮书（摘要版）. 算泥社区. https://www.aigcopen.com/content/omni-channel/39246.html
[38] 2025中国AI大模型产业图谱2.0版重磅发布. CSDN 博客. https://blog.csdn.net/ympzuelx3aiap7q/article/details/155142702
[39] AI大模型趋势报告丨2025Q1: 从“思考型模型”到中国AI崛起. 腾讯新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_2876830178948052
[40] 2025人工智能大事件回顾丨中国AI大模型篇. 智源社区. https://hub.baai.ac.cn/view/51710
[41] 2025年AI大模型行业现状与发展趋势分析. 中研网. https://m.chinairn.com/hyzx/20250210/16300959.shtml
[42] 2025年AI大模型市场规模及发展前景分析. 中研网. https://m.chinairn.com/scfx/20250212/151844941.shtml

24 KiB Raw Blame History Unescape Escape