34 KiB

Raw Permalink Blame History

2025 年 Google Gemini 发展总结（面向技术与产品视角）

2025 年对 Gemini 来说是从“大模型家族”走向“统一智能平台”和“智能体时代”的关键一年：底层模型从 2.5 进化到 3 代，多模态与推理能力跃升；上层产品从聊天助手扩展为贯穿 Search、Chrome、Android、Workspace、Home、Cloud 的统一 AI 层；面向开发者和企业则形成了 API + CLI + Code Assist + Enterprise + 开放协议（MCP / A2A / AP2）的完整生态。

下面按「模型演进 → 多模态 → 产品整合 → 开发者与企业 → 典型场景 → 安全与隐私 → 商业与生态」系统梳理。

一、核心模型演进：从 Gemini 2.5 到 Gemini 3

1. Gemini 2.5：思考型模型全面落地

2.5 Pro（思考模型）
- 引入“thinking model”范式：模型在给出最终回答前先进行内部推理，显著提升推理和复杂任务准确率。[1]
- 1M tokens 上下文窗口，宣布即将支持 2M tokens，能直接吞下大型代码库、长报告、PDF 以及多模态数据。[1]
- 在 GPQA、AIME 2025 等数学与科学基准上取得领先，而且是在没有多数投票等昂贵推理增强技巧下完成的。[1]
- 代码能力大幅跃升：在 SWE-bench Verified 基准中，配合自定义 agent 方案可达 63.8% 解决率，远超 2.0 时代。[1]
- 强调是“思考型”家族的先行者，后续 Gemini 模型会普遍内建这类思考能力。[1]
2.5 Flash / Flash-Lite
- 专注 低延迟 + 低成本 + 高吞吐，定位为「性价比最高的推理模型」之一。[2]
- Flash：默认关闭思考模式，以极低成本和延迟完成多数在线任务；Lite 版本则在思考开启下针对大规模分类、摘要等任务进一步优化。[2]
- 支持工具使用：Google Search Grounding、代码执行、URL Context 等。[2]
- 2025 年 6 月 17 日 2.5 Flash GA，Lite 预览上线，形成从 Pro → Flash → Flash-Lite 的性能/成本梯度。[3]
2.5 Deep Think：推理极限
- 作为 2.5 Pro 的“深度推理模式”，在数学和竞赛型任务上能力跃迁。
- 在 2025 年：
  - **IMO（国际数学奥赛）**层面达到金牌水平。[4]
  - ICPC 世界总决赛中，使用 Gemini 2.5 Deep Think 的系统在 12 道题中解出 10 题，整体成绩达金牌档，展现出与顶尖程序员团队竞争的能力。[4][5]

关键结论：2.5 系列把 Gemini 从“通用聊天大模型”推到“可在严苛数学与编程竞赛中拿金牌的思考型系统”，并通过 Pro / Flash / Lite 梯度满足高智商和高性价比两端诉求。

2. Gemini 3：统一「学、建、规划」的旗舰模型

2025 年 11 月，Google 发布 Gemini 3 Pro，并在 12 月推出针对速度与成本优化的 Gemini 3 Flash。[6][7]

总体能力
- 定义为「迄今最智能的 Gemini」，在推理深度、多模态理解、代码与 agent 能力上全面超越 2.5 系列。[6]
- 继续支持 100 万 tokens 上下文，围绕「Learn anything / Build anything / Plan anything」三个方向进行能力设计。[6]
基准成绩（3 Pro）[6][8]
- LMArena Elo：1501，位居榜首。
- GPQA Diamond：91.9%，Deep Think 版本提升到 93.8%。
- Humanity’s Last Exam：37.5%（无工具），Deep Think 提升到 41.0%。
- MathArena Apex：23.4%（前沿数学推理）。
- SWE-Bench Verified：76.2%，对真实代码库错误修复能力极强。
- WebDev Arena Elo：1487，Terminal-Bench 2.0：54.2%，显示在 Web 开发与终端自动化方面的顶级表现。
多模态与长程规划
- MMMU-Pro：81%，Video-MMMU：87.6%，在跨学科多模态难题上领先。[6]
- 在长程规划基准 Vending-Bench 2 等任务中位居榜首，可以在模拟的一整年规划任务中保持一致的工具调用与计划执行。[6]
Deep Think 模式
- 针对最复杂的推理任务启用，显著提升数学、逻辑与复杂问答准确率。[6]
- 先开放给安全测试者和 Ultra 高端订阅用户，强调在更强推理同时加强安全评估。
Gemini 3 Flash
- 2025 年 12 月成为 Gemini App 与 Search AI Mode 的默认模型，用更低成本提供接近 Pro 的推理与多模态能力。[7]
- 设计目标：“前沿智能 + Flash 级别速度与价格”，在同等价格下超越 2.5 Pro 级别模型。[7]

关键结论：Gemini 3 把 Gemini 推到「多模态 + 长上下文 + 强推理 + 强 agent」的统一旗舰阶段，并通过 Deep Think 与 Flash 将“最强能力”和“规模化部署”同时兼顾。

二、多模态与生成能力：文本 / 图像 / 视频 / 音频

1. 图像：Nano Banana & Nano Banana Pro（Gemini 3 Pro Image）

Nano Banana（Gemini 2.5 Flash Image）
- 作为 Gemini 的原生图像生成功能，在 2025 年成为多产品基础：Gemini App、Search 购物试穿、工作流等。[9]
Nano Banana Pro（Gemini 3 Pro Image）[9][10]
- 基于 Gemini 3 Pro 的图像生成与编辑模型，关键特性：
  - 强文本渲染：可生成带准确多语种文本的图片（标题、段落、字体、书法），对广告、海报、信息图极重要。
  - 4K 级高分辨率与一致性控制：可融合多张输入图，支持最多 5 人脸在复杂构图中保持相似度，适合品牌物料和多镜头角色保持。
  - 实时知识接入：可连到 Google Search 知识库，用最新天气、体育、菜谱等数据生成可视化图像。
  - 精细编辑：支持局部编辑、光线/景别/色调等摄影级控制。
- 内容安全：所有生成或编辑的图像内嵌 SynthID 水印，Gemini App 新增视频/图片验证功能帮助识别 AI 生成内容。[7][9]
Workspace 集成
- 2025 年 11 月起，Nano Banana Pro 面向 Workspace 推出：
  - Slides：用“帮我可视化”“美化此幻灯片”基于文本自动生成信息图和设计稿。[11]
  - Vids：为视频自动生成中间插图和视觉素材，可多轮提示迭代。[11]
  - NotebookLM：从笔记和资料自动生成信息图与整套幻灯片。[11]
  - Gemini App：选择“Create images + Thinking”即可调用 Nano Banana Pro。[11]

2. 视频：Veo 3.1 与 Flow

Veo 3.1 / 3.1 Fast（视频生成模型）[12]
- 通过 Gemini API 提供付费预览，同时在 Gemini App、Flow（AI 电影工具）等入口开放：
  - 更真实的纹理与光影、改进的镜头风格理解。
  - 强化 图像转视频 / 场景延长 / 首尾帧过渡：
    - 可用最多 3 张参考图锁定角色或风格。
    - 支持基于上一段视频最后 1 秒无缝续写，拼接到 1 分钟级别。
    - 通过指定首帧和末帧生成中间过渡镜头。

3. 音频与音乐：Gemini Native Audio & Lyria RealTime

Gemini 2.5 Flash Native Audio 升级：
- 支持自然多语种对话、情绪和语气控制，用于 Gemini Live API、Gemini App 实时对话和 Search Live。[7][13]
Gemini Live API（Vertex AI）[14]
- 面向企业的实时多模态接口：
  - 音频/视频/文本输入，低延迟语音对话。
  - 支持 24 种语言，打断（barge-in）、情感对话、语音活动检测。
  - 原生工具调用与转写（speech + text）。
Lyria RealTime 音乐生成：
- 通过 Gemini API 提供实时音乐生成模型，用于交互式音乐体验与应用嵌入。[3][13]

三、产品层整合：Gemini 成为 Google 统一 AI 层

1. Google Search：AI Mode + Gemini 3

AI Mode 全面推广
- 2025 年 I/O 后，AI Mode 成为 Search 的重要入口，支持更长、更复杂的对话式搜索。[15]
Gemini 3 接管 AI Mode[16]
- Gemini 3 首次在发布日即接入 Search 的 AI Mode。
- 支持自动模型路由：复杂查询由 3 Pro/3 Flash 处理，简单查询走更快模型。
- 支持动态生成视图：表格、卡片、图片、交互模拟器（如三体问题模拟、按条件定制的按揭计算器等），并在结果中嵌入自生成的工具 UI，同时保证显著链接到高质量站点。[16][7]

2. Chrome：Gemini in Chrome 与 AI 浏览体验

Gemini in Chrome[17]
- 在 Windows / macOS 全面上线，后续扩展到移动端。
- 关键能力：
  - 跨多标签归纳比较信息（如行程规划多站点、酒店、活动）。
  - 回忆历史页面（“上周看到核桃桌的网站”）。
  - 深度集成 Calendar / YouTube / Maps 等，在不离开当前网页的前提下完成安排与检索。
  - 直接在地址栏发起 AI Mode 查询，对当前页面提问、获取 AI Overview。
- 安全特性：
  - 通过 Gemini Nano 强化诈骗检测，对技术支持骗局、假杀毒/抽奖网页进行识别预警。
  - 更智能的通知与权限请求过滤。

3. Android & Pixel：Tensor G5 + Gemini Nano

Tensor G5 芯片与 Gemini Nano[18]
- 首次在 Pixel 10 系列上部署最新 Gemini Nano 模型：
  - Nano 工作负载速度提升 2.6x，能效提升 2x。[18]
  - 赋能 Magic Cue、Voice Translate、通话笔记（Call Notes with Actions）、个人日记等全部在端侧完成，强化隐私与实时性。[18]
- 新 ISP + Gemini 支持 10bit 视频、Pro 级变焦、Real Tone 进一步增强，并通过 C2PA + Titan M2 在端侧写入“内容凭证”。[18]
Gemini Live on Pixel
- 2025 年多次 Pixel Drop 升级中，Gemini Live 支持摄像头 + 屏幕共享对话，成为随身实时多模态助手。[19]

4. Google Home：Gemini for Home 与 Home Premium

Gemini for Home[20][21]
- 取代传统 Google Assistant，成为家用语音与情境智能核心：
  - 新 Nest Cam/Doorbell + 重构的 Google Home App 以 Gemini 为核心设计。
  - Home Premium 订阅整合视频历史、智能告警和自动化，“Ask Home / Help me create” 通过自然语言生成家庭自动化场景。
早期接入计划
- 2025 年 10 月起在美国等国家为 Nest 音箱与屏幕推出 Gemini for Home voice assistant Early Access。[21]
- 部分功能需 Home Premium/Advanced 订阅，例如高级摄像头分析和 Gemini Live 语音聊天。[21]

5. Workspace：从「加购 AI」到「AI 内建」

Gemini 内建到 Workspace 套餐[22]
- 自 2025 年开始，商业与企业版 Workspace 计划默认包含 Gemini 应用、NotebookLM、及 Gmail / Docs / Meet 等中的 AI 功能。
Gemini 侧边栏与 Deep Research[23][24]
- 侧边栏支持在 Gmail、Docs、Sheets、Slides、Chat 中执行写作、分析、总结任务。
- Deep Research 2025 年 11 月开始与 Workspace 深度集成：可在确保权限的前提下，从 Gmail、Chat、Drive（含 Docs/Slides/Sheets/PDF） 以及网页共同检索综合，生成结构化研究报告。[24]
Gemini in Classroom（K12 与高教）[25][26]
- 面向教师免费提供超过 30 个 AI 工具：自动备课、题目与 Rubric 生成、差异化练习、阅读理解追踪等。[25]
- 与 NotebookLM / 自定义 Gems 联动，为学生构建「学习伙伴 / 测试我 / 头脑风暴 / 现实连接者」等 AI 工具。[25]
- 2025 年 11 月起扩展到 18 岁以上高等教育学生，允许学生在 Classroom 中直接使用 Gemini 学习一门课、生成学习指南与闪卡等，前提是学校按年龄开启访问。[26]

四、开发者与工程生态：Gemini API、CLI、Code Assist、开放协议

1. Gemini API：模型更新与功能矩阵

2025 年 API Changelog 显示，Google 以高频节奏发布/升级各类模型与工具：[3]

模型系列：
- Gemini 2.0 → 2.5 → 3 系列（Pro / Flash / Flash-Lite / Native Audio / TTS）。
- 图像：Gemini 2.5 Flash Image（Nano Banana），后续 Gemini 3 Pro Image（Nano Banana Pro）。[3][9]
- 视频：Veo 3 GA 与 Veo 3.1 预览。[12][3]
- Embeddings：gemini-embedding 系列上线并逐步替换旧 gecko/embedding。
- 机器人、计算机使用：Gemini Robotics-ER 1.5、Gemini 2.5 Computer Use 预览等。[3]
能力更新：
- File Search API、URL Context、Logging & Dataset 工具、Batch Mode 等为大规模应用提供基础设施。
- Live API 不断替换旧模型，统一到 2.5 Flash Native Audio 系列，并补全 token 统计、媒体分辨率控制等细节。[3][14]

2. Gemini CLI：面向终端与 MCP 的 AI agent

Gemini CLI 在三个月内吸引超过 100 万开发者使用，用于命令行编码、调试、自动化和研究。[27]
新增：
- VS Code 深度集成：上下文感知文件理解与内嵌 diff。
- MCP 支持：可直接连接到 Google Maps、BigQuery、GCE、GKE 等托管 MCP 服务器。[28]
- August / December 重大更新允许直接在 CLI 中管理 MCP 服务器、执行多工具编排等。[29]

3. Gemini Code Assist：从补全到 Agent Mode

2025 年，Code Assist 从「智能补全 + 聊天」升级到 Agent Mode：[30]
- Agent Mode 特点：
  - 作为 AI 结对程序员，读取整个代码库，为“新增功能 / 大型重构 / 依赖升级”等复杂任务生成多文件改动计划。
  - 在执行前展示 详细计划（修改文件列表 + 变更摘要），由开发者逐条审核、修改、批准或拒绝。
  - 支持自动生成与回滚 checkpoint，一键恢复所有受影响文件到变更前状态。
  - 在 VS Code / IntelliJ 中配合 inline diff、高亮和可点击文件名链接提供可视化体验。
  - 支持 .gitignore 与自定义 .aiexlude 控制敏感或旧代码不被分析。
- 2025 年下半年升级：
  - 更快更稳的 UI，Auto-scroll、随时中断回答、终端输出一键注入上下文。
  - 末期开始逐步把早期工具型 Code Assist 下线，转向 Agent Mode 为统一路线。[31]

4. Gemini Enterprise：企业级智能体平台

2025 年 10 月，Google 公布 Gemini Enterprise，作为企业工作场景的 AI 总入口和 agent 平台：[27]
- 六大组件：
  1. Gemini 模型（脑）。
  2. 无代码工作台（编排与分析）。
  3. Google 预置 agents（深度研究、数据洞察等）。
  4. 自定义/伙伴 agents 扩展。
  5. 连接企业数据（Workspace、M365、Salesforce、SAP…）。
  6. 集中治理（可视化、访问、安全与审计）。
- 特点：
  - 支持 多模态 Workspace agent：在 Docs / Slides / Vids / Meet 中处理文本、图像、视频与语音任务。
  - 引入 Data Science Agent（预览），自动化数据整理、建模与部署流程。
  - 面向客服与营销的 Customer Engagement Suite：低代码多渠道（电话 / Web / App / 邮件 / Chat）对话 agent，支持 40+ 语言。
  - 与 Gemini CLI / MCP / A2A / AP2 深度打通，形成从工程到业务的完整 agent 生态。
2025 年 12 月的 Enterprise 更新聚焦：
- Gemini 3 Flash 接入企业 Web 端；[32]
- 统一数据源 + Action 流程、一键创建 data store 与 actions；
- 支持从 Google Cloud Marketplace 引入 A2A agents；
- 加入用户级与 NotebookLM Enterprise 指标分析，方便 ROI 评估。[32]

5. 开放协议：MCP & A2A & AP2

Agent2Agent Protocol (A2A)[33]
- 2025 年 4 月发布，定义 AI agents 在不同厂商与平台间通信与协作的开放标准。
- 基于 HTTP / SSE / JSON-RPC，支持能力发现（Agent Card）、任务生命周期管理与多模态消息传递。
- 已与 50+ 科技企业与咨询公司合作，成为 Gemini Enterprise 背后 agent 协作基础。
Model Context Protocol (MCP)[28]
- 2025 年 12 月 Google 宣布为自家服务提供托管 MCP 服务器：
  - Google Maps、BigQuery、GCE、GKE 等服务暴露为标准 MCP 工具。
  - 通过 API Registry 与 Apigee Hub 统一治理，配合 IAM、审计日志及 Model Armor 提供安全。
- Claude、Gemini、OpenAI 等均已支持 MCP，成为跨模型、跨平台数据接入的事实标准之一。
Agent Payments Protocol (AP2)[27]
- 与 American Express、PayPal、Mastercard 等金融伙伴合作，定义 agent 之间安全交易协议，使购物/支付 agent 能以标准方式完成支付流程。
- 与 A2A / MCP 一起构成 context / communication / commerce 三大开放层，为未来「多 agent 经济」打基础。

五、垂直领域：教育、医疗、科研与 XR、游戏

1. 教育：Gemini for Education 与 Classroom

Gemini for Education 提供安全版本 Gemini App，教育机构数据不被用作训练，且有更严格的隐私控制。[26]
Classroom 中的 Gemini：
- 教师端：备课、题库、Rubric、阅读理解追踪、学习标准对齐等；[25]
- 学生端（高教、18+）：学习复杂概念、自动生成学习指南和闪卡、从课堂资料构建个性化复习计划。[26]
辅助工具如 NotebookLM、Gemini for Educators 课程帮助教师掌握生成式 AI 的教学用法。[25]

2. 医疗：MedGemma 与 Med-Gemini

MedGemma：基于 Gemma 3 的开放医疗模型家族（4B 多模态、27B 文本与多模态），结合 4 亿参数 MedSigLIP 图像编码器，对医学图像与文本进行联合建模。[34]
- 在 MedQA、胸片报告生成、医学图像分类与检索等任务上表现接近或达到 SOTA。
- 模型开源可在本地或 Vertex AI 部署，强调需要二次验证，不直接用于临床决策。
Google 同时推进 Med-Gemini、健康对话 agent（wayfinding AI）、医疗隐私与安全研究，使 Gemini 在医疗与生命科学领域成为重要基建之一。[35]

3. 科学研究：AI 合作科学家与 Genesis 任务

Google Research 2025 年报告中强调：
- 利用 Gemini 2.0/2.5 构建多 agent 科学助手系统，加速假设生成与科研方案设计。[36]
- AI co-scientist 被用于物理、化学等多领域，并在 AlphaFold3 等项目中承接风险评估与伦理研究。

4. XR 与游戏：Android XR + SIMA 2

Android XR + Gemini[37]
- Gemini 作为眼镜与 XR 头显的“主视角助手”，可以实时看到与听到用户所见所闻，提供导航、翻译、环境理解与交互。
- 与 Samsung Galaxy XR、Gentle Monster 等合作，目标将 Gemini 融入日常可穿戴设备。
SIMA 2（Gemini 驱动的 3D 游戏世界 agent）[38]
- 将 Gemini 嵌入为 SIMA 2 的核心推理引擎，使其在 Goat Simulator 等复杂 3D 环境中从“指令执行者”进化为会计划、会解释意图的游戏 AI。
- 能在 Genie 3 生成的新虚拟世界中自适应，并通过自生成经验自我改进，对未来机器人与通用 embodied AI 具有重要启发价值。

六、安全、责任与隐私：从规则到架构

AI 责任年度报告（2025 年 2 月）[39]
- Google 将 NIST AI RMF、前沿安全框架（FSF）、Secure AI Framework（SAIF）等纳入内部治理。
- 强调“映射-测量-治理-管理”四步：风险测绘、量化评估、发布治理流程、上线后持续监控与补救。
Gemini 3 安全[6][40]
- 声称是迄今最安全的 Google AI 模型：
  - 通过多轮红队与外部评估（UK AISI、Apollo、Vaultis 等）。
  - 针对 prompt injection、sycophancy（逢迎）、网络攻击进行了显著加强。
  - 发布《Gemini 3 Pro Frontier Safety Framework Report》披露评估流程与限制假设。[40]
Private AI Compute[41]
- 2025 年 11 月推出的隐私架构，将云端 Gemini 模型运行在硬件加密的“封闭环境”中：
  - 使用 Titanium Intelligence Enclaves（TIE）与自研 TPU，确保推理中数据对 Google 员工与其他用户不可见。
  - 为 Pixel 设备上的 Magic Cue、Recorder 摘要等功能提供“云能力 + 本地隐私”的平衡。
隐私合规与政策
- Google 2025 年在 GDPR、HIPAA 等合规上持续扩展，使 Gemini 成为少数拥有广泛合规认证的通用 AI。[42]
- 发布针对 Gemini App / Workspace 的隐私中心，强调用户数据控制权，并提供关闭训练、删除历史等功能。[43]

七、商业模式与订阅：Free / AI Pro / AI Ultra

Google AI Pro（约 $19.99/月）[44]
- 面向个人与小团队：
  - 使用 Gemini 3 Pro、“Thinking”模式每日 100 次、Deep Research 报告每日 20 份；
  - Nano Banana / Nano Banana Pro 图像各有不同配额；
  - Veo 3.1 Fast 视频每天 3 段；
  - 1M tokens 上下文窗口；
  - 包含 2TB Google One 存储、Home Premium 标准版等。
Google AI Ultra（约 $249.99/月）[44]
- 面向重度专业与企业用户：
  - Thinking & Pro 500 次/日；Deep Research 200 份/日；Deep Think 10 次/日；
  - Nano Banana Pro 图像、Veo 3.1 视频大幅提高配额；
  - 集成 Project Mariner（浏览器 agent 原型），支持多任务并行；
  - 包含 30TB 存储与 YouTube Premium 等。
AI Plus、AI Pro for Education、AI Ultra for Business 等多档位
- 面向学生（免费一年 Pro）、中小企业与教育机构给出差异化折扣与额度。[45]

八、总体评估与趋势判断

能力层面：
- 2.5 → 3 代标志着从“强大通用模型”进化为“在数学、编程与多模态长程任务上能够对标顶级人类专家”的系统。Deep Think + 竞赛金牌验证了这一点。
产品层面：
- Gemini 已经从单一 App 渗透为 Search / Chrome / Android / Workspace / Home / Cloud 的统一智能层——用户几乎在任何 Google 产品中都能遇到它，以聊天、侧边栏、agent、AI Mode 或 XR 助手等不同形态出现。
工程与生态层面：
- 通过 Gemini API + CLI + Code Assist + Enterprise + MCP / A2A / AP2，Google 把 Gemini 变成一套可组合的“智能体平台”，开发者可以在终端、IDE、云基础设施、业务系统乃至第三方工具中构建和连接 agents。
安全与合规：
- 2025 年 Google 在责任 AI 报告、前沿安全框架、Private AI Compute 与 SynthID 水印方面投入巨大，一方面是应对监管，另一方面也为大规模部署争取信任。
商业与竞争：
- 通过 Free → AI Pro → AI Ultra 多层次定价和与 Pixel / Home / Workspace / Cloud 深度捆绑，Gemini 正逐步成为 Google 收费与留存的核心抓手之一；同时也成为与其他大模型（如 GPT、Claude 等）在推理、多模态与 agent 赛道上硬碰硬的主力。

如果你在 2025–2026 年要用或布局 Gemini，可以怎么做？

个人/团队生产力
- 选择 Google AI Pro，使用 Gemini 3 Pro + Deep Research + Nano Banana Pro + Veo 3.1，在写作、研究、设计和视频方面形成一体化工作流。
企业应用
- 利用 Gemini Enterprise 将企业数据（Workspace、M365、Salesforce、SAP 等）接入，通过无代码 Workbench + 预制 agents + 自建 agents 快速搭建客服、运营、销售与数据分析智能体。
开发者
- 使用 Gemini API + CLI + Code Assist（Agent Mode），结合 MCP / A2A，把内部 API、日志、数据库、GCP 服务等暴露为工具，让 AI 在你的基础设施上执行真实任务。
教育与医疗
- 教育：在 Classroom 中使用 Gemini 提升备课与个性化辅导效率，并通过 Gemini for Education 避免数据用于训练。
- 医疗：基于 MedGemma 和 Vertex AI 构建面向医生和研究者的助手，但必须在本地/合规环境中进行严格验证与风险控制。

References

34 KiB Raw Permalink Blame History Unescape Escape