ai-doc/2025年ai总结/8月.md

24 KiB
Raw Blame History

下面的内容分两部分:(1) 2025年8月大模型及相关产品的核心发布更新(2) 结合全年态势做一个“发展回顾+趋势判断”方便你既看当月重点也把它放回2025这整年里去理解。


一、2025年8月大模型与AI产品关键发布

1. OpenAIGPT5 正式发布8月78日

定位与发布形态

  • GPT5 被官方称为“迄今为止最智能、最快速、最实用的模型”,是 OpenAI 新一代旗舰基础模型和 ChatGPT 的底座。[1][2]
  • 统一架构:第一次把 GPT 系列(偏“快答”)与 o 系列推理模型(偏“深度思考”)整合到一个系统中,由路由器自动决定何时快速回答、何时进入深度推理。[1][2][3]
  • 面向所有 ChatGPT 免费用户开放Plus / Pro 用户在用量、推理深度等方面有更高配额和 Pro 版本。[2][4]

关键能力与技术指标

  • 多模态:支持文本、图像、语音甚至视频的理解与生成,多模态从“可选功能”上升为默认能力。[1][3][5]
  • 推理与编码能力大幅提升
    • 数学:在 AIME 2025 测试中,在无工具辅助条件下正确率达到 94.6%,显著超越 GPT4 系列与 o3 等模型。[1][6]
    • 编程:在 SWEbench 等编码基准上“屠榜”,支持从少量提示生成 200 行以上的完整应用发布时多家媒体称其在编程上“惊艳”被定位为“氛围编程vibe coding”的核心引擎。[3][7]
  • 超长上下文:官方与业界报道普遍给出 128K400K 级别上下文,面向长合同、代码库、论文集等场景。[1][8]
  • 统一系统结构
    • 一个基础的“高效模型”处理大多数日常问题;
    • 一个“GPT5 Thinking”思考模型负责复杂推理
    • 一个实时路由器负责在二者之间自动切换。[8]
  • 价格与版本梯度
    • 标准版、Mini、Nano 多档,面向云端复杂任务、日常 API 使用、本地/嵌入式设备等不同场景。[1][6]
    • 单位 tokens 成本进一步下降,有报道称在一些任务上的 API 价格仅为竞争对手(如 Claude Opus 4.1)约 1/101/15。[7]

生态与落地

  • 微软同步宣布 GPT5 全面进入 Copilot、Microsoft 365 Copilot、Azure AI Foundry 与 GitHub Copilot 等产品线,实现全栈升级。[9]
  • 对开发者提供专门的 GPT5 for Developers 版本,可通过 reasoning_effort 等参数精细控制推理深度和延迟,支持更复杂的工具链调用与智能体任务。[10]

实质变化

  • 功能形态上没有像 GPT4 那样“新奇功能大爆发”,但在推理、编码、多模态一致性、长上下文稳定性上做了“全方位补课+屠榜”。
  • 行业普遍评价:从“炫技式创新”回归“工程能力与性价比”——更像是一次“实战化、产品化的大升级”。

2. DeepSeekV3.1 大模型8月1921日

发布时间线

  • 8 月 19 日晚DeepSeek 官方群通知“线上模型版本升级至 V3.1,上下文拓展至 128K”网页 / App / 小程序同步更新。[11][12]
  • 8 月 20 日凌晨:在 Hugging Face 上开源 V3.1Base给出上下文 128K、参数约 685B 等技术信息。[12][13]
  • 8 月 21 日通过公众号、媒体正式官宣“DeepSeekV3.1 正式发布”,多家媒体以“迈向智能体时代的第一步”来解读。[14][15]

核心技术特征

  • 混合推理架构V3+R1 融合)[16][17]
    • 一个模型内部同时支持“思考模式reasoner”和“非思考模式chat
      • 简单任务时采用非思考模式,响应更快、更省 tokens
      • 复杂任务时自动或手动切换到思考模式,输出包含中间推理链。
    • 本质上是把原来的对话模型 V3 与推理模型 R1 在权重与训练流程上深度融合,外部统一暴露为 V3.1。
  • 规模与精度
    • 总参数约 685BMoE 稀疏专家架构),激活参数约 37B每次推理只有部分专家参与。[13][18]
    • 采用 UE8M0 FP8 Scale 精度格式,对国产 AI 芯片友好,显著提升在国产 GPU / 加速器上的利用率与能效。[19]
  • 上下文与输出能力
    • 上下文从 64K 扩展到 128K可以稳定处理 10 万字级长文档、长代码库。
    • 思考模式默认输出长度可到 32K上限 64K非思考模式默认约 4K上限可到 8K兼顾深度推理与泛用对话。[11][20]
  • Agent智能体能力增强
    • 通过强化后训练,对工具调用、搜索代理、代码代理等能力重点优化,在 SWEbench / Terminalbench 等智能体相关基准上显著提升。[15][18]
    • API 端同时支持 deepseek-chat(非思考)和 deepseek-reasoner(思考),并支持 strict Function Calling 以及 Anthropic API 兼容格式,方便从 Claude 生态迁移。[20]

成本与生态

  • 官方宣布自 2025 年 9 月 6 日起V3.1 的 API 调用价格:
    • 输入价格最低可到 0.5 元 / 百万 tokens缓存命中
    • 标准输入输出也远低于主流闭源模型单价。[21]
  • 同时被多家云厂商如阿里云百炼、Google Vertex AI以 MaaS 方式引入,做为开源“高性价比”选项。[13][22]

关键意义

  • 把“一个模型两种大脑”(思考 & 非思考)做成可运维、可商用的统一架构,是国内在推理时代大模型工程化上的一次标志性突破。
  • 再叠加极致的性价比,使 DeepSeek 系列在全球开源和低成本推理市场里拥有了非常强的话语权。

3. 智谱 AIAutoGLM 2.0 手机通用 Agent8月20日

产品定位

  • AutoGLM 2.0 被智谱称为**“全球首个手机通用 Agent”**[23][24]本质上是一个能代替人在手机 / 电脑上“动手操作”的执行型智能体,而不仅是一个聊天机器人。
  • 底层由国产开源语言模型 GLM4.5 与视觉推理模型 GLM4.5V驱动,具备推理、代码、多模态理解能力。[23][25]

核心能力

  • Agent + 云手机 / 云电脑 架构[23][26]
    • 每个用户在云端对应一部“智能体手机”和一台“智能体电脑”(统一为 Android 14 + 固定配置),预装几十个高频 App。
    • 所有自动化操作都在云端执行用户本地设备资源不被占用可以一边“AI干活”一边自己刷抖音、打游戏。
  • 跨应用自动操作
    • 生活场景:一句话就能让 AutoGLM 2.0 在美团、小红书、京东、抖音等 40+ 应用中完成“搜店–下单–使用优惠券–预约服务”等整套流程。[23][24][27]
    • 办公场景:可以在浏览器、飞书、邮箱、知乎、微博等之间跨站检索、撰写文稿、生成视频 / PPT / 播客并直接发布。[24][28]
  • 全天候后台执行
    • Agent 可在云端 7x24 小时独立运行,后续会推出“定时任务”功能实现每天定时发帖、整理信息、下单外卖等自动 Routine。[23][26]

战略意义

  • AutoGLM 2.0 把大模型从“对话 AI”升级为面向 C 端的大众化智能体:
    • 对用户:让**“人人有一个云端数字打工人”**变成现实;
    • 对开发者与硬件厂商:其执行能力封装为 API可嵌入手机、眼镜、家电等多种设备成为国产 Agent 生态基础设施之一。[23][29]

4. 钉钉 8.0AI 钉钉 1.08月25日

版本定位

  • 8 月 25 日,钉钉 发布 8.0 版本,被官方定义为**“AI 钉钉 1.0”**。[30][31]
  • 标志着国内日活级协同办公应用正式转向**“AI 原生”**:产品形态从“聊天 + OA”重构为以 AI 为核心的工作平台。

主要更新

  • 发布 10+ 款 AI 产品[30][32]
    • 钉钉 ONE下一代 AI 办公入口,人与 AI 通过自然语言交互的统一界面;
    • 企业 AI 搜索引擎“AI 搜问”:结合大模型问答 + 企业权限知识库,做“企业级 Copilot”
    • AI 表格、AI 听记、AI 文档等一整套智能办公组件;
    • 首款 AI 硬件 DingTalk A1超薄录音卡片对接 AI 听记与语音助手。
  • 模型融合引擎 AI Fusion[31][33]
    • 集成全球 50+ 种主流大模型,支持在相同问题下快速对比不同模型的效果;
    • 企业可基于效果、成本、安全性等维度选择或组合最佳模型,实现“多模型编排”。

意义

  • 对内:钉钉 8.0 是阿里系在 ToB 协同办公赛道上全面“AI 化”的里程碑,产品形态和工作流被 AI 重写。
  • 对行业:进一步验证了一个趋势——大模型真正落地时形态往往是“AI 原生应用”和“企业智能体系统”,而不是单独的模型 API。

二、2025 年大模型发展回顾与趋势总结(聚焦 8 月所处的“时间点”)

8 月这批发布,其实出现在 2025 年一整条技术与产业演进曲线的“高点”上,理解这条曲线可以帮助你把握后续几年方向。

1. 技术侧:从“堆规模”转向“重推理、重架构”

综合 2025 年多份趋势报告与年终回顾文章,可以清晰看到几条主线:[34][35][36]

  1. 架构层MoE + 混合推理成为主流
    • MoE 稀疏专家架构回归主舞台,与稀疏注意力等技术一起,在有限算力下支撑“万亿级”参数和长上下文。
    • DeepSeek V3.1 把“对话模型 + 推理模型”融合为统一架构OpenAI GPT5 则以“统一系统 + 路由器”整合 GPT 系列与 o 系列,本质上是同一方向:一个模型内部实现快思考 / 慢思考两种工作模式
  2. 训练范式:从 RLHF 向 RLVR 演进
    • 行业开始从“人类喜好对齐RLHF”向“可验证奖励强化学习RLVR”转变使模型在数学推理、程序生成这类可自动验证任务中持续自我提升。[34][36]
  3. 多模态:从拼接式到原生多模态
    • 头部模型GPT5、Gemini 3、GLM4.5 系列等)把文本、图像、音频、视频统一到一个原生多模态架构里,多模态从“附加 feature”变成标准配置与核心卖点。
  4. 长上下文与记忆
    • 128K2M tokens 上下文窗口逐渐常态化辅以检索增强生成RAG与记忆系统使模型能在长期会话、项目级协作、代码仓库理解中保持连贯性。

8 月的 GPT5 与 DeepSeek V3.1,正是上述趋势的集中体现:一个是闭源顶级实验室的统一推理系统,一个是国产开源阵营的混合推理代表。


2. 市场格局:中美路线分化,开源与闭源“对峙升级”

多份 2025 年白皮书和年度盘点,对格局的共识大致如下:[34][37][38]

  • 美国:闭源高性能 + 全栈生态
    • OpenAI、Google 继续主导高端闭源模型,依托云平台、生产力套件、操作系统形成“从芯片到应用”的闭环。
    • 商业模式依赖 API 经济和 SaaS 订阅,以高性能、高稳定性和安全合规能力换取溢价。
  • 中国:开源 + 高性价比 + 本地生态
    • DeepSeek、Qwen、GLM、豆包等国产模型凭借开源权重、极致性价比与对中文场景的适配快速缩小与闭源巨头的差距有些指标甚至实现超越。
    • 国家层面在算力基础设施、数据要素市场、行业应用试点上给出系统性支持,使中国在**“AI 普惠化+产业落地”**上形成比较优势。

8 月的 GPT5 vs DeepSeek V3.1,可以视作这两条路线在“推理时代”的一次正面交锋与互相逼近


3. 应用层:从“通用问答”走向“智能体与 AI 原生应用”

2025 年的另一个关键词是:Agent智能体爆发。[39][40]

  • 国外有 Manus 等通用智能体,国内则有 AutoGLM、豆包手机助手等
    • 它们不仅能“回答问题”,更能根据自然语言指令去规划步骤、调用工具、执行跨应用操作,完成一整套现实任务。
  • 8 月的两个重磅里程碑:
    • AutoGLM 2.0把手机变成“AI 的手和眼”用户给目标、AI 去执行,是典型的 ToC 智能体形态。
    • 钉钉 8.0:把企业协同工作流整体重构为 AI 驱动,是典型的 ToB AI 原生应用形态。

可以说,“问答型大模型 → 任务型智能体 → AI 原生应用 / 平台”,构成了 2025 年应用层进化的主线,而 8 月的一系列发布刚好把三者连在了一起。


4. 商业化与成本:大模型进入“可持续经营”阶段

  • 多家市场研究机构预计2025 年全球 AI 大模型市场规模已达数百亿美元,中国市场规模接近或突破 500 亿元,且仍然保持高双位数甚至三位数增长。[41][42]
  • 成本战与性价比之战白热化
    • DeepSeek、国产 Qwen / GLM 等把训练与推理成本压到主流闭源的 1/151/70使“便宜好用”的开源 / 国产模型具备了大规模商用条件。
    • GPT5 也不得不在价格上大幅下调,通过高性能+降价来守住高端用户与开发者生态。

整体来看2025 年是大模型从“烧钱扩张”向“成本效益与可持续商业模式”转型的关键一年。


5. 风险与治理:技术走向“可控、可信”的长坡

尽管性能不断提升,但行业共识也在收紧:幻觉、安全、合规是大模型落地绕不开的三座大山。[34][36]

  • 技术应对:
    • 更大规模检索增强RAG、事实校验、工具调用
    • 更严格的对齐与安全过滤;
    • 从 RLHF 走向更可验证的 RLVR。
  • 治理与监管:
    • 各国陆续推出 AI 安全与治理框架,对数据、输出内容、责任边界提出要求;
    • 企业在部署 GPT5、DeepSeek、AutoGLM 等系统时,越来越多从“玩”转为“纳入风控与合规体系”。

三、对你的“落地参考建议”

结合 2025 年 8 月的发布与全年趋势,可以给出几条相对“可操作”的判断,供你在选型、规划或写报告时参考:

  1. 如果你关注的是“通用对话 + 编程/分析能力”

    • GPT5 目前仍是综合能力与生态配套最强的闭源选项,更适合:
      • 高价值场景(复杂编程、科研、跨模态分析);
      • 对安全合规、SLA 要求较高的大型企业。
    • 对成本非常敏感、且可接受一定工程集成工作的团队,可以重点评估 DeepSeek V3.1 这类开源 / 低价模型。
  2. 如果你关注的是“执行型智能体与自动化”

    • To C 场景(个人效率、消费级产品):
      • AutoGLM 2.0 是一个极具代表性的“手机 Agent 模板”,可借鉴其“云手机 + 端分离”的架构理念。
    • To B 场景(办公、组织协同):
      • 钉钉 8.0 展示了“AI 重构工作流”的整体蓝图——不是简单给每个功能加 AI而是用 Agent 驱动整个工作信息流和应用入口。
  3. 国产化与本地生态路线

    • 若需国产算力 / 本地部署或开源可控DeepSeek V3.1、GLM4.5 系列、Qwen 等都是核心选项;
    • 建议不要只看单点跑分,更要看:
      • 是否有混合推理架构(思考/非思考双模式);
      • 是否支持 128K 以上上下文;
      • 是否有完善的 Agent / 工具调用 / 检索增强方案。
  4. 未来 12 年的技术押注方向

    • 在研究或产品规划上,可以重点关注:
      • 混合推理架构统一快思考chat与慢思考reasoner
      • 原生多模态:文本 + 图像 + 音频 + 视频的一体化模型;
      • 智能体系统:从单模型 API 向多模型编排 + 工具链 + 工作流平台演进;
      • 成本优化与国产算力适配FP8/INT4 量化、异构算力调度。

一句话小结:

  • 2025 年 8 月,可以被看作“大模型推理时代”和“智能体时代”在产品层面正式合流的时间点。
  • GPT5、DeepSeek V3.1、AutoGLM 2.0 与钉钉 8.0,分别代表了:顶级闭源推理模型、开源高性价比推理模型、C 端执行型智能体和 B 端 AI 原生应用四个方向的标杆。
  • 从这一刻起,大模型不再只是“更会聊”,而是真正开始成为个人与企业的“数字员工”和“自动化操作系统”

References

[1] 2025年8月8日信息差OpenAI正式发布GPT5模型…… 抖音视频概要. https://www.douyin.com/video/7536232091173719356
[2] OpenAI推出GPT5迈向通用人工智能道路上的“重要一步”. 新浪财经. https://finance.sina.com.cn/stock/usstock/c/2025-08-08/doc-infketkp9659383.shtml
[3] GPT5首秀性能“屠榜”背后的体验分化与治理空窗. 智源社区. https://hub.baai.ac.cn/view/48024
[4] OpenAI正式发布GPT5. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_028689540e967952
[5] GPT5正式发布: 与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?. 新浪财经头条. https://cj.sina.com.cn/articles/view/1736207384/677c6c18001016h0c
[6] OpenAI 发布的新一代旗舰模型 GPT5. CSDN 博客. https://blog.csdn.net/DK_Allen/article/details/150212193
[7] 一文读懂GPT5发布会价格屠夫、编程惊艳新功能乏善可陈. 华尔街见闻. https://wallstreetcn.com/articles/3752905
[8] 隆重推出GPT5. OpenAI 官方页面. https://openai.com/zh-Hans-CN/index/introducing-gpt-5/
[9] GPT5 AI 模型全面登陆微软生态系统:更聪明、更连贯、更懂你. IT之家. https://www.ithome.com/0/873/840.htm
[10] 隆重推出面向开发人员的GPT5. OpenAI 官方页面. https://openai.com/zh-Hans-CN/index/introducing-gpt-5-for-developers/
[11] DeepSeek 通知线上模型版本升级至 V3.1上下文长度拓展至128k. 腾讯新闻. https://new.qq.com/rain/a/20250819A082IA00
[12] DeepSeek 开源新模型 V3.1:上下文长度拓展至 128K. IT之家. https://www.ithome.com/0/876/637.htm
[13] DeepSeek-V3.1 Base 模型说明. ModelScope/DeepSeek-V3.1. https://www.modelscope.cn/models/deepseek-ai/DeepSeek-V3.1/
[14] DeepSeek-V3.1 正式发布. DeepSeek 官方新闻. https://api-docs.deepseek.com/zh-cn/news/news250821
[15] DeepSeek-V3.1正式发布. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_95768a6c06442752
[16] DeepSeek V3.1:混合推理模型发布、代理能力强化与前沿解读. 知乎专栏. https://zhuanlan.zhihu.com/p/1942241093564490308
[17] 128K上下文只是“配菜”V3+R1模型融合才是重点腾讯云开发者社区. https://cloud.tencent.com/developer/news/2885016
[18] DeepSeek V3.1开源发布128K上下文60TPS生成速度…… CSDN 博客. https://blog.csdn.net/qq_41687670/article/details/150544864
[19] DeepSeek-V3.1正式发布 UE8M0 FP8技术助力国产芯片加速追赶. 财联社. https://www.cls.cn/detail/2122457
[20] DeepSeek-V3.1发布,重视国产算力、液冷(研究报告节选 PDF. 东方财富. https://pdf.dfcfw.com/pdf/H3_AP202508241733403261_1.pdf
[21] 官宣DeepSeekV3.1 发布API调用价格低至0.5元/百万tokens. 新浪科技. https://finance.sina.com.cn/tech/2025-08-21/doc-infmtrwz9394786.shtml
[22] DeepSeek-V3.1 | Google Cloud Vertex AI 文档. https://cloud.google.com/vertex-ai/generative-ai/docs/maas/deepseek/deepseek-v31
[23] 智谱发布AutoGLM 2.0全球首个手机Agent云端自主完成任务. IT之家. https://www.ithome.com/0/876/731.htm
[24] 智谱发布手机通用Agent“AutoGLM 2.0”. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_18468a5636055352
[25] 智谱发布手机智能体AutoGLM 2.0. 科技日报. https://www.stdaily.com/web/gdxw/2025-08/20/content_388086.html
[26] 全球首个手机Agent智谱发布 AutoGLM 2.0. 时代财经. https://so.html5.qq.com/page/real/search_news?docid=70000021_12268a5653c89052
[27] 一句话就能点外卖、订机票!智谱推出国产云端智能体. 央广网科技. https://tech.cnr.cn/techyw/kan/20250821/t20250821_527330651.shtml
[28] 科学网沉思2.0将给手机免费装上AI助理. https://news.sciencenet.cn/sbhtmlnews/2025/8/386149.shtm
[29] AutoGLM 2.0发布既生智谱何生DeepSeek. 东方财富网. https://finance.eastmoney.com/a/202508213490806556.html
[30] 钉钉发布8.0版本推出超10款AI产品支持50种大模型效果对比. 腾讯新闻聚合页. https://so.html5.qq.com/page/real/search_news?docid=70000021_58268ac26f626652
[31] 钉钉8.0版本今日发布正式迈向AI原生. 腾讯新闻. https://new.qq.com/rain/a/20250825A07KFA00
[32] 钉钉发布超10款AI产品. 新浪财经. https://finance.sina.com.cn/jjxw/2025-08-26/doc-infnhvhf8294719.shtml
[33] 钉钉发布8.0版本数10款AI产品亮相. 经济参考报. http://jjckb.xinhuanet.com/20250826/cf042a1a40154923ae5c8844ff0d4775/c.html
[34] 2025年AI大模型开发生态白皮书. 搜狐科技转载. https://www.sohu.com/a/956903063_121838586
[35] 2025大模型进化论“规模定律”见顶三条新脉络重构AI未来. 腾讯新闻聚合. https://so.html5.qq.com/page/real/search_news?docid=70000021_7926943d10d83452
[36] 【翻译】2025年大语言模型年度回顾. 腾讯云开发者社区. https://cloud.tencent.com/developer/article/2614431
[37] 2025 AI 大模型开发生态白皮书(摘要版). 算泥社区. https://www.aigcopen.com/content/omni-channel/39246.html
[38] 2025中国AI大模型产业图谱2.0版 重磅发布. CSDN 博客. https://blog.csdn.net/ympzuelx3aiap7q/article/details/155142702
[39] AI大模型趋势报告丨2025Q1: 从“思考型模型”到中国AI崛起. 腾讯新闻. https://so.html5.qq.com/page/real/search_news?docid=70000021_2876830178948052
[40] 2025人工智能大事件回顾丨中国AI大模型篇. 智源社区. https://hub.baai.ac.cn/view/51710
[41] 2025年AI大模型行业现状与发展趋势分析. 中研网. https://m.chinairn.com/hyzx/20250210/16300959.shtml
[42] 2025年AI大模型市场规模及发展前景分析. 中研网. https://m.chinairn.com/scfx/20250212/151844941.shtml