ai-doc/2025年ai总结/3月.md

22 KiB
Raw Blame History

下面是基于当前已获取信息,对2025年3月大模型版本发布与发展回顾的系统性总结与梳理。


一、总体态势:从“模型军备”到“推理 + Agent + 性价比”新阶段

2025年3月大模型竞争进入新拐点

  • 技术层面
    • 从“纯参数堆叠”走向:MoE 稀疏大模型 + 高效推理RL / 思维链 / MTP+ 长上下文(最高到 1M tokens+ 全模态(文图音视频)
    • 推理能力、代码能力、多模态理解显著强化。
  • 应用层面
    • 从“Chatbot”走向Agent智能体+ 具身智能机器人 + 行业大模型(医疗 / 教育 / 工业等)+ 一体机形态落地
  • 产业与政策
    • 中国在两会上将“人工智能+”写入政府工作报告,明确“支持大模型广泛应用”,政策层面全面加码。
    • 欧盟 AI 法案在前期通过并逐步进入实施和细化,全球监管框架加速成型。
  • 竞争格局
    • 海外OpenAI、Google、Anthropic 等继续在前沿闭源模型上领跑。
    • 中国:DeepSeek、百度、阿里、蚂蚁、智元等通过开源、低成本和行业纵深应用实现“技术追平 + 性价比弯道超车”。

3 月可以视为:“推理型模型 + 智能体 + 一体机 + 政策托底”集中爆发的关键月份


二、按时间线梳理2025年3月核心发布与重大事件

1. 3 月 6 日:通用 AI Agent —— Manus 发布

  • Manus:由中国团队 Butterfly EffectMonica.im推出被定位为全球首款通用型 AI Agent
  • 技术特点
    • 多智能体架构(规划代理 + 执行代理 + 验证代理),采用类似 CodeAct 的工具调用体系。[Manus 架构综述参见多篇技术分析]
    • 能拆解复杂任务、调用工具链、自主执行与自我校验。
  • GAIA Benchmark 表现
    • GAIA 是面向通用 AI 助手的基准,考查推理、多模态、上网、工具使用等综合能力。
    • Manus 在 GAIA 三个难度级别分别取得 86.5%、70.1%、57.7% 的成绩,多篇报道指出全面超越 OpenAI Deep Research 同层级模型[Manus GAIA 分数,多文献一致]。
  • 产业意义
    • 标志着 AI 从“对话建议者”走向“全链路执行型 Agent为后续“Agent 作为新界面 / 新操作系统”奠定技术样板。

2. 3 月 10 日:智元机器人 GO1 通用具身基座大模型发布

  • 产品:智元启元大模型 GO1Genie Operator1国内首个通用具身基座大模型。[智元多篇报道一致]
  • 架构与技术
    • 采用 ViLLAVisionLanguageLatentAction 框架VLM多模态大模型+ MoE混合专家
    • 通过人类视频学习 + 小样本快速泛化,大幅降低具身智能数据标注成本和场景适配门槛。
  • 能力与评估
    • 官方和论文给出的结果:在大规模真实机器人操作任务上,对长时序、精细操作任务成功率超过 60%,显著优于以往方法[1]。
    • 支持“一脑多形”,同一大脑可以迁移到不同形态机器人上(家政、接待、安检等)。
  • 落地进展
    • 已部署到多款智元人形或轮式机器人,展示倒水、清理桌面、补货、叠衣服、开冰箱、做下午茶、超市结算等复杂连贯动作[智元 demo 报道多处给出]。
    • 20250106 已量产下线第 1000 台通用具身机器人3 月宣布将落地深圳南山。

小结GO1 把“多模态大模型 + MoE”真正嵌入具身机器人使具身智能从单一 demo 突破到面向通用家庭 / 商业场景的基础设施

3. 3 月 16 日:百度文心大模型 4.5 & X1 发布 —— 性能 + 价格“双杀”

  • 发布内容
    • 文心大模型 4.5:新一代原生多模态基础大模型。
    • 文心大模型 X1:深度思考(推理)模型,对标 DeepSeekR1。[百度多篇英文 / 中文新闻一致]
  • 性能与价格
    • 多模态与逻辑推理能力综合测试平均得分 79.6,略高于 GPT4.5 的 79.14[多家测评与文章引用],在中文多模态理解上明显优势。
    • API 价格极低:输入约 0.004 元 / 千 tokens、输出约 0.016 元 / 千 tokens,大约是 GPT4.5 的 1% 左右;有报道称:“企业 1 元可处理约 25 万 tokens”[2]。
    • 文心 X1 性能对标 DeepSeekR1价格更低支持自动工具调用(代码生成、画图、网页抓取等)。
  • 开放策略
    • 文心大模型(包括 4.5 和 X1在文心一言官网免费对用户开放4.5 系列计划于 6 月 30 日开源,成为首个对标国际顶级水准的国产开源基础模型之一[2]。
  • 行业影响
    • 极低价格 + 计划开源,将迫使国际巨头重新审视价格体系,也将进一步推动大模型 API“商品化”与国产模型生态扩张

4. 3 月 24 日:两大 MoE 重磅更新 —— DeepSeek V30324 与蚂蚁百灵系列

4.1 DeepSeekV30324开源 MoE “顶配版”,大幅加强推理与编码

  • 模型规模与架构
    • 总参数:约 671B~685B,每次推理仅激活 37B 参数,是典型的 稀疏 MoE 架构[DeepSeek 技术报告及多处解读一致]。
    • 采用 Multihead Latent AttentionMLA 压缩 KV Cache支持 128K 上下文;同时引入 MultiToken PredictionMTP多 token 预测),在训练和推理阶段提升效率[3]。
  • 重要性能提升(对前一版 V3[4]
    • MMLUPro75.9 → 81.2+5.3
    • GPQA59.1 → 68.4+9.3
    • AIME2024 数学题集)39.6 → 59.4+19.8
    • LiveCodeBench代码修复 / 开发)也显著提升约 +10 分。
  • 编码与前端能力
    • 多数对比文章指出V30324 的编码能力整体接近甚至局部追平 Claude 3.5/3.7 Sonnet、GPT4.5 等闭源旗舰,尤其在前端 Web / 全栈任务上表现突出。
  • 开源与部署
    • MIT 协议开源(与旧版自定义协议不同),允许商业闭源集成与二次分发,是目前性能最高的一线开源基座模型之一[5]。
    • 支持 4bit 量化部署,在具备 512GB 统一内存的 Mac Studio M3 Ultra 等消费级工作站上也可以跑到 20+ token/s,显著降低本地推理门槛[DeepSeek 部署相关文章]。

结论V30324 实际上是“换壳新车”,以开放权重 + 高性价比推理在非推理型nonreasoning大模型里几乎“封神”成为各云厂与本地一体机 / 自建私有云的首选开放权重模型之一。

4.2 蚂蚁百灵 LingLite / LingPlus国产芯片 + 3000 亿参数 MoE训练成本降 20%

  • 模型规模[6]
    • LingLite168 亿参数(激活 27.5 亿),面向中轻量场景。
    • LingPlus:基座模型 2900 亿 总参数(激活 288 亿),整体等价 3000 亿级 MoE。
  • 关键技术亮点
    • 核心论文题为《Every FLOP Matters: Scaling a 300Bparameter MixtureofExperts LING Model without Highend GPUs》强调在不依赖 H100/H800 等高端 GPU的情形下扩展超大 MoE 模型。
    • 提出一整套异构算力 + 动态参数分配 + 混合精度调度 + 异常恢复机制 + 自动评测框架,在低规格国产 GPU 上实现高效训练。
  • 成本与性能
    • 对 9 万亿 tokens 预训练实验表明:在高性能硬件上训练 1 万亿 tokens 成本约 635 万元,采用国产芯片 + 新范式后可降至 508 万元直接节省近 20% 成本[6]。
    • 论文与多篇报道指出:该 3000 亿级 MoE 模型在国产 GPU 上训练的性能,与完全使用英伟达 H800 同规模稠密 / MoE 模型 相当
  • 产业含义
    • 这是中国第一次用国产芯片 + MoE 技术,在万亿 token 级别上把成本压到可对标英伟达方案,直接撼动“英伟达唯一高端路径”的产业认知。
    • 蚂蚁后续还在医疗、支付等领域推出相关行业智能体和一体机方案,形成“模型 + 芯片 + 行业”的纵深布局。

5. 3 月 25 日Google Gemini 2.5 Pro 发售 —— 长上下文 + “思考模型”强化

  • 模型定位
    • 谷歌 DeepMind 称 Gemini 2.5 Pro 是“截至推出时最强大的 Gemini 模型”,属于**“thinking model思考模型”家族**的一员[7]。
  • 关键特性
    • 1M token 上下文窗口:在官方与第三方测试(如 NeedleinaHaystack、RULER 等)中表现出在 1M 范围内仍能保持较好检索与推理能力[8]。
    • 支持多模态输入:文本、图片、音频、视频在科学问答GPQA Diamond、数学与编程方面表现突出。
  • Benchmark 表现(综合多篇 benchmark 报告):
    • GPQA Diamond84% 左右,处于当时 SOTA 阶梯前列[7]。
    • AIME 2025单次作答能达到约 86.7% 的高分,在不做多次多数投票的前提下仍保持极强数学推理[9]。
    • MMLU / MMLUPro综合得分约 52.9%(某些评测中低于 GPT4.5,但在复杂推理和长上下文任务中具优势)[7][9]。
  • 价格与产品化
    • 提供“思考预算thinking budgets”的计费模式可控制每次推理的深度成本[8]。
    • 集成到 Vertex AI、Firebase AI Logic 等云产品,对长文档分析、复杂代码 refactoring、多模态科研助手等场景具有吸引力。

6. 3 月 27 日:阿里 Qwen2.5Omni —— 7B 端到端全模态小钢炮

  • 模型信息
    • Qwen2.5Omni7B 是通义千问最新一代 端到端全模态旗舰小模型,可同时处理 文本、图像、音频、视频 输入,输出文本[10]。
    • 参数量:7B部分实现中显示 10~11B 含辅助头部),体量相对轻量,支持在常规 GPU 环境甚至高端边缘设备上部署。
  • Benchmark 亮点[11]
    • 在多模态综合基准 OmniBench 上得分 56.13%,在同体量开源模型中表现领先。
    • 在 MMLUPro 上可达 77.3%+,多个对比实验显示在 TexttoText 任务上总体接近 Qwen2.57B / Llama 3.18B / Gemma2 等一线模型
    • 在语音理解 / 语音指令跟随MMSU 等基准Qwen 团队报告其在开放权重模型里名列第一[10]。
  • 用途与生态
    • 阿里将 Qwen2.5Omni 深度集成到 夸克 AppAI 超级框)、阿里云等产品中,作为“全模态助手 + 终端 AI 中枢”,支撑实时语音交互、图像理解、视频问答、课堂与办公助手等使用场景。

三、中国其他关键进展与行业应用

1. 智元 GO1 之后:地方与国家层面对“具身智能”的系统布局

  • 深圳发布《具身智能机器人技术创新与产业发展行动计划20252027 年)》,提出构建具身智能基座大模型及垂直领域模型、发展世界模型和 VTLA视觉触觉语言动作体系[12]。
  • 2025 年政府工作报告首次将“具身智能、智能机器人”写入报告,并与生物制造、量子科技等并列为未来产业,预期人形机器人和具身智能产业将成万亿级新赛道[13]。

2. 医疗大模型与区域医疗平台

3 月内多起医疗 AI 相关事件表明医疗大模型进入“从试点到规模应用”阶段

  • 区域医疗大模型平台:“宝医数智”等区域医疗平台上线,以大模型 + 医疗知识库支撑区域内多院协同、重症监护预警等。[深圳宝安案例]
  • 各类垂直医疗大模型(如中医大模型“广医·岐智”、儿科大模型等)被发布,用于病历自动生成、智能导诊、处方建议与教学支持。

3. 教育场景:智慧教育 2.0 与校园级大模型落地

  • 教育部在 3 月 28 日 发布 国家智慧教育平台 2.0 智能版,首批上架 10 款 AI 应用,包括:
    • 人民网“自在”心理疏导大模型(面向青少年心理健康和家校共育)。
    • 北大数学解题助手、代码纠错 / 解答助手、智能出题助手。
    • 清华 AI 课堂与科技信息平台,复旦伏羲天气大模型,科大讯飞 AI 求职助手等[教育部会议报道]。
  • 各地学校实践:
    • 厦门双十中学实现 DeepSeek 大模型校园私有化部署,为教师提供备课、出题、批改与教研辅助,为学生提供个性化学习支持[教育局报道]。

4. 大模型一体机:从概念到“爆款”基础设施

  • 受 DeepSeek 开源与大规模部署需求驱动,大模型一体机在 2025 年被称为“元年”
    • 动力:政务、央国企对本地化、数据安全、低成本推理的强需求。
    • 按浙商证券预测:
      • 20252027 年一体机需求量分别约 15 万台、39 万台、72 万台
      • 对应市场空间 1236 亿元、2937 亿元、5208 亿元,两年累计增幅超 300%[14]。
    • 参与者:华为昇腾、中国电信、中国移动、浪潮信息、深信服、广电运通等数十家公司推出 DeepSeek 或多模型适配的一体机,几乎形成“百家争鸣”的新硬件生态。

四、政策与治理:技术扩张与安全合规并行

1. 中国:“人工智能+”上升为国家行动,监管细则同步落地

  • 3 月 5 日政府工作报告
    • 明确提出持续推进“人工智能+”行动,将数字技术与制造 / 市场优势结合,支持大模型广泛应用重点发展智能网联车、AI 手机和电脑、智能机器人、智能制造装备等[15]。
    • “人工智能+”被视为发展新质生产力的重要抓手。
  • 合规与安全
    • 3 月 14 日,国家网信办等四部门发布《人工智能生成合成内容标识办法》,规定自 20250901 起,所有 AI 生成内容必须添加显式或隐式标识,重点管控政务、医疗、金融等高敏感领域[16]。
    • 中国信通院启动 “可信 AI” AI Safety Benchmark 大模型幻觉评测,以 7000+ 中文样本,从事实性与忠实性幻觉两大维度系统评估主流模型的安全可靠性[17]。
    • 一系列 AI 国家标准(大模型通用要求、测评指标与方法、服务能力成熟度等)发布,构成安全评估与行业合规的技术底座。

2. 欧盟AI 法案通过后进入实施细化与“适度松绑”阶段

  • 欧盟《人工智能法案》在 20240313 由欧洲议会通过20240801 生效,并将分阶段在 20252026 年逐步实施。其中,对通用 AI 模型训练数据透明度、禁止用途、高风险场景等有明确规定[18]。
  • 2025 年 2 月,欧盟在巴黎 AI 峰会上表示将对部分规定“适度放宽”,推迟高风险规定实施时间、减轻中小企业合规负担,以平衡创新与监管压力[19]。

总体来看:2025 年是“技术极度活跃 + 治理框架系统成型”的关键拐点,中国在应用与政策的结合上推进最快,欧盟则在强监管和竞争力之间做再平衡。


五、综合技术趋势总结(以 3 月为节点)

  1. 架构:从 Dense 到 MoE + MLA + MTP

    • DeepSeek V30324、ERNIE 4.5、百灵 Ling 系列等主力模型均采用 MoE 架构 + 负载均衡,显著提高“参数使用效率 / 能效比”。
    • MLA、稀疏注意力、动态路由等技术使得在 128K~1M 长上下文下依旧可控。
  2. 能力:从 System1 模式匹配到 System2 多步推理

    • DeepSeekR1、ERNIE X1、Gemini 2.5 Pro 等推理模型通过 RLVR / 思维链强化学习,配合 agent 工具使用,使在 AIME、GPQA 等高难度基准上达到接近甚至超越顶级人类选手的水平。
    • 大量文章指出,“推理能力 + 工具使用能力”成为2025年第一要素
  3. 模态:从文本到文图音视频 + 空间 / 动作

    • 通义 Qwen2.5Omni、Gemini 2.5 系列、Go1 的 ViLLA 框架,标志多模态进入“端到端统一表征 + 动作决策”时代。
    • 多模态不仅用于“看图说话”,而是支持机器人决策、医疗成像、多媒体创作等深层场景。
  4. 形态:从 Chatbot 到 Agent + 具身智能 + 一体机

    • Manus、AutoGLM、各类行业 Agent医疗、金融、运维等加速落地推动“AI 从建议者到执行者”的范式转移。
    • GO1 等具身智能基础模型连接虚拟与物理世界,开始从“云上智能”走向“在你身边的智能体”。
    • 大模型一体机成为政企和中小机构主流落地形态之一,兼顾本地安全与开箱即用。
  5. 生态:开源 + 低价 + 行业纵深

    • DeepSeek、ERNIE 4.5 开源、Qwen 和 Llama 系列的开源路线共同构成了强力的开源阵营MIT 等宽松协议推动模型成为“公共基础设施”。
    • 百度、DeepSeek、Qwen 等在 API 定价上远低于海外闭源巨头,进一步拉低“推理单价”,推动行业从“技术护城河”转向“生态与场景护城河”。

六、对企业与开发者的可操作建议(基于 3 月之后格局)

  1. 模型选型策略

    • 需要高性价比通用大模型 + 可私有化部署:优先考虑 DeepSeek V30324 + Qwen2.5 系列 + ERNIE 4.5 开源版 等开源 / 开权重模型,辅以云上 GPT4.5 / Gemini 2.5 Pro 作为补充。
    • 注重“推理 + 工具使用”场景(编码、业务流程自动化),可在 DeepSeekR1 / ERNIE X1 / Gemini 2.5 思考模型之间做 A/B 测试。
  2. 应用路线

    • C 端产品:聚焦 智能体Agent能力 —— 自动化处理表单、报销、运营、客服等端到端任务,学习 Manus 的“三代理架构(规划‑执行‑验证)”思路。
    • B 端/政企:优先 一体机 + 行业大模型 解决方案,利用国产芯片 + 开源模型降低长期成本并确保数据合规。
  3. 合规与安全

    • 针对中国业务,必须预留内容标识、水印、溯源能力,提前对接生成内容标识办法与大模型安全测评要求。
    • 对高风险领域(医疗、金融、政务)部署前,建议参照中国信通院的幻觉评测框架,自建或采购第三方安全评测能力。

七、总结一句话

2025 年 3 月的大模型发展,可以概括为:

「技术上MoE + 长上下文 + 多模态 + 推理模型 + Agent 架构全面铺开;
产业上,从通用 ChatBot 转向 Agent、具身智能、大模型一体机和行业大模型
政策上,“人工智能+”成为国家行动AI 安全与内容标识进入刚性要求;
格局上,中国模型在性能上进一步逼近,凭借开源与极致性价比,开始系统性重塑全球 AI 生态。」


References

[1] Large-scale Manipulation Platform for Scalable and Intelligent Embodied Foundation Models (GO1). https://agibot-world.com/blog/agibot_go1.pdf
[2] 百度文心 4.5 & X1 发布及性能、价格报道。https://www.datacamp.com/blog/ernie-4-5-x1
[3] DeepSeekV3 Technical Report. https://arxiv.org/abs/2412.19437
[4] deepseek-ai/DeepSeek-V3-0324 性能说明。https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
[5] DeepSeek V3 0324 开源许可与部署分析。https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/
[6] 蚂蚁集团百灵 Ling 模型与国产芯片训练成本报道。https://www.sohu.com/a/875120086_122004014
[7] Gemini 2.5 Pro 官方技术文档与评测。https://modelcards.withgoogle.com/assets/documents/gemini-2.5-pro.pdf
[8] Gemini 2.5 Pro 思考模式与 1M context 说明。https://ai.google.dev/gemini-api/docs/pricing
[9] Gemini 2.5 Pro 综合评测与对比。https://www.helicone.ai/blog/gemini-2-5-full-developer-guide
[10] Qwen2.5Omni 官方博客与技术报告。https://qwen.ai/blog?id=qwen2.5-omni
[11] Qwen2.5Omni-7B Benchmarks. https://llm-stats.com/models/qwen2.5-omni-7b
[12] 深圳市具身智能机器人技术创新与产业发展行动计划。https://stic.sz.gov.cn/xxgk/tzgg/content/post_12052515.html
[13] 2025 年政府工作报告中具身智能与“人工智能+”表述。http://www.news.cn/politics/20250306/b16a4ef588c94750ac7704181377ce45/c.html
[14] 大模型一体机应用研究报告2025 年)相关市场预测。https://so.html5.qq.com/page/real/search_news?docid=70000021_6886904868f21452
[15] 2025 政府工作报告全文及“人工智能+”相关内容。https://www.moe.gov.cn/jyb_xwfb/xw_zt/moe_357/2025/2025_zt03/baogao/202503/t20250312_1182594.html
[16] 《人工智能生成合成内容标识办法》发布。https://www.cac.gov.cn/2025-03/14/c_1743654684782215.htm
[17] 中国信通院 AI Safety Benchmark 幻觉评测启动。https://finance.eastmoney.com/a/202503193350075080.html
[18] 欧盟《人工智能法案》通过及实施安排概览。https://zh.wikipedia.org/zh-hans/人工智能法案
[19] 《欧盟AI法案》合规解读及后续“松绑”讨论。https://www.protiviti.com/sites/default/files/2025-04/interpretation-of-eu-ai-act_cn.pdf