3.9 MiB
与 OpenRouter 的实证性 100 万亿 Token 研究
Malika AubakirovaAlex Atallah†Chris Clark†Justin Summerville†Anjney Midha
-
a16z (Andreessen Horowitz) •† OpenRouter Inc.
-
主要贡献者。详见_贡献_部分。
2025年12月
摘要
过去一年标志着大语言模型(LLMs)演进和实际应用的重要转折点。随着第一个被广泛采用的推理模型_o1_于2024年12月5日发布,该领域从单次模式生成转向多步推理,加速了部署、实验和新型应用的步伐。随着这一转变的快速展开,我们对这些模型在实践中实际使用方式的实证理解却相对滞后。在这项工作中,我们利用 OpenRouter 平台(一个连接多种大语言模型的 AI 推理提供商)来分析跨任务、地理区域和时间维度的超过 100 万亿个真实世界 LLM 交互 Token。在我们的实证研究中,我们观察到开放权重模型的广泛采用、创意角色扮演的极大流行(超越了很多人认为主导的生产力任务和编程辅助类别)以及智能体推理的兴起。此外,我们的留存分析识别了_基础队列_:早期用户的参与度持续时间远远超过后续队列。我们将这一现象称为灰姑娘_"玻璃鞋"_效应。这些发现强调了开发者和最终用户与"野生"LLMs 互动的方式是复杂且多面的。我们讨论了这些发现对模型构建者、AI 开发者和基础设施提供商的影响,并概述了如何使用数据驱动的使用理解来为更好的 LLM 系统设计和部署提供信息。
引言
就在一年前,大语言模型的格局看起来截然不同。在 2024 年底之前,最先进的系统主要由单次、自回归预测器主导,这些预测器针对连续文本序列进行优化。几个先驱尝试通过高级指令跟随和工具使用来近似推理。例如,_Anthropic 的 Sonnet 2.1 & 3_模型在复杂的_工具使用和检索增强生成(RAG)_方面表现出色,_Cohere 的 Command R_模型结合了结构化工具规划令牌。分开来说,_Reflection_等项目探索了监督思维链和训练期间的自我批判循环。尽管这些先进技术产生了类似推理的输出和卓越的指令跟随,但基本的推理程序仍然基于单次前向传递,发出从数据中学习到的表面级痕迹,而不是执行迭代的内部计算。
这一范式在2024年12月5日演进,当时 OpenAI 发布了其_o1_推理模型(代号_Strawberry_)的第一个完整版本[4]。9月12日发布的预览已经表明了与传统自回归推理的偏离。与以前的系统不同,_o1_采用了扩展的推理时计算过程,涉及内部多步推理、潜在规划和迭代细化,然后生成最终输出。从经验上看,这使得数学推理、逻辑一致性和多步决策制定得到系统性改善,反映了从模式完成到结构化内部认知的转变。回顾起来,去年标志着该领域的真正转折点:早期方法指向推理,但_o1_引入了第一个通过深思熟虑的多阶段计算执行推理而不仅仅是_描述_它的通用部署架构[6, 7]。
虽然最近 LLM 能力的进步已被广泛记录,但关于这些模型在实践中实际使用方式的系统性证据仍然有限[3, 5]。现有报告往往强调定性演示或基准性能,而不是大规模行为数据。为了弥补这一差距,我们进行了 LLM 使用的实证研究,利用来自OpenRouter的 100 万亿 Token 数据集,OpenRouter 是一个多模型 AI 推理平台,作为多样化 LLM 查询的中心。
OpenRouter 的视角为细粒度使用模式提供了独特的窗口。因为它协调跨广泛模型阵列的请求(包括闭源 API 和开放权重部署),OpenRouter 捕获了开发者和最终用户实际为各种任务调用语言模型的方式的代表性横截面。通过分析这个丰富的数据集,我们可以观察为哪些任务选择了哪些模型,使用如何跨地理区域和时间变化,以及定价或新模型发布等外部因素如何影响行为。
在本文中,我们借鉴了 AI 采纳的先前实证研究,包括 Anthropic 的经济影响和使用分析[1]以及 OpenAI 的报告_人们如何使用 ChatGPT_[2],旨在进行中性、证据驱动的讨论。我们首先描述我们的数据集和方法,包括我们如何对任务和模型进行分类。然后我们深入研究一系列分析,阐明使用的不同方面:
- 开源与闭源模型: 我们检查开源模型相对于专有模型的采用模式,识别开源生态系统中的趋势和关键参与者。
- 智能体推理: 我们研究多步、工具辅助推理模式的出现,捕获用户如何越来越多地将模型用作更大自动化系统的组件,而不是用于单轮交互。
- 类别分类法: 我们按任务类别(如编程、角色扮演、翻译等)细分使用情况,揭示哪些应用领域驱动最多活动,以及这些分布如何因模型提供商而异。
- 地理分布: 我们分析全球使用模式,比较各大洲的 LLM 吸收情况并深入研究美国境内使用情况。这突出了区域因素和本地模型产品如何塑造整体需求。
- 有效成本与使用动态: 我们评估使用如何对应有效成本,捕获 LLM 采用在实践中的经济敏感性。该指标基于平均输入和输出令牌,并考虑缓存效应。
- 留存模式: 我们分析最广泛使用模型的长期留存,识别定义持久、粘性行为的_基础队列_。我们将其定义为灰姑娘_"玻璃鞋"_效应,其中用户需求和模型特征之间的早期对齐创造了持久契合,随着时间的推移维持参与。
最后,我们讨论这些发现揭示的真实世界 LLM 使用情况,突显意外模式并纠正一些误解。
数据与方法
OpenRouter 平台和数据集
我们的分析基于从OpenRouter平台收集的元数据,OpenRouter 是一个统一的 AI 推理层,连接用户和开发者到数百个大语言模型。OpenRouter 上的每个用户请求都针对用户选择的模型执行,并记录描述结果"生成"事件的结构化元数据。本研究使用的数据集包括来自全球用户基础的数十亿提示-完成对的匿名请求级元数据,涵盖写作时约两年的时间。我们确实聚焦于最近一年。
至关重要的是,我们无法访问提示或完成的基础文本。我们的分析完全依赖捕获每个_生成_的结构、时间和上下文的**元数据**,而不暴露用户内容。这种隐私保护设计能够进行大规模行为分析。
每个生成记录包括关于时间、模型和提供商标识符、令牌使用和系统性能指标的信息。令牌计数包括提示(输入)和完成(输出)令牌,使我们能够测量整体模型工作负载和成本。元数据还包括与地理路由、延迟和使用上下文相关的字段(例如,请求是否被流式传输或取消,或是否调用了工具调用功能)。总的来说,这些属性提供了实践如何使用模型的详细但非文本视图。
基于此元数据的所有分析、聚合和大多数可视化都是使用Hex分析平台进行的,该平台提供了可重现的版本化 SQL 查询、转换和最终图形生成管道。
我们强调这个数据集是观察性的:它反映 OpenRouter 平台上的真实世界活动,这本身受模型可用性、定价和用户偏好影响。截至 2025 年,OpenRouter 支持来自 60 多个提供商的 300 多个活跃模型,为数百万开发者和最终用户提供服务,超过 50% 的使用来自美国境外。虽然平台外的某些使用模式未被捕获,但 OpenRouter 的全球规模和多样性使其成为大规模 LLM 使用动态的代表性视角。
GoogleTagClassifier 内容分类
本研究无法直接访问用户提示或模型输出。相反,OpenRouter 通过非专有模块 GoogleTagClassifier 对约占所有提示的 0.25% 的随机样本和响应进行内部分类。虽然这仅代表总活动的一小部分,但考虑到 OpenRouter 处理的总体查询量,底层数据集仍然很大。GoogleTagClassifier 与 Google Cloud Natural Language 的classifyText内容分类 API接口
该 API 将分层、语言无关的分类法应用于文本输入,返回一个或多个类别路径(例如,/Computers & Electronics/Programming,/Arts & Entertainment/Roleplaying Games)以及范围 [0,1] 内的相应置信度分数。分类器直接对提示数据(最多前 1,000 个字符)操作。分类器部署在 OpenRouter 的基础设施内,确保分类保持匿名且不链接到各个客户。置信度分数低于默认阈值 0.5 的类别被排除在进一步分析之外。分类系统本身完全在 OpenRouter 的基础设施内运行,不是本研究的一部分;我们的分析仅依赖于结果分类输出(实际上是描述提示分类的元数据)而不是底层提示内容。
为了使这些细粒度标签在大规模上有用,我们将 GoogleTagClassifier 的分类法映射到研究定义的紧凑桶集,并为每个请求分配_tags_。每个标签以一对一的方式汇总到更高级别_类别_。代表性映射包括:
- 编程: 来自
/Computers & Electronics/Programming或/Science/Computer Science/* - 角色扮演: 来自
/Games/Roleplaying Games和/Arts & Entertainment/*下的创意对话叶节点 - 翻译: 来自
/Reference/Language Resources/* - 一般问答/知识: 来自
/Reference/General Reference/*和/News/*(当意图看起来是事实查找时) - 生产力/写作: 来自
/Computers & Electronics/Software/Business & Productivity Software或/Business & Industrial/Business Services/Writing & Editing Services - 教育: 来自
/Jobs & Education/Education/* - 文学/创意写作: 来自
/Books & Literature/*和/Arts & Entertainment/*下的叙述叶节点 - 成人: 来自
/Adult - 其他: 当没有主要映射适用于长尾提示时。(注意:我们从下面的大多数分析中省略此类别。)
这种方法存在固有局限性,例如,对预定义分类法的依赖限制了新颖或跨域行为的分类方式,某些交互类型可能尚未完全适合现有类别。在实践中,当内容跨越重叠域时,一些提示会收到多个类别标签。尽管如此,分类器驱动的分类为我们提供了下游分析的镜头。这使我们能够量化不仅仅是 LLMs 被使用_多少_,而且是_为什么_使用。
模型和令牌变体
一些变体值得明确说明:
- _开源与专有:_如果模型的权重公开可用,我们将模型标记为开源(OSS,为简单起见),如果只能通过受限 API 访问,则标记为闭源(例如,Anthropic 的 Claude)。这种区别使我们能够测量社区驱动模型与专有模型的采用。
- _来源(中国与世界其他地区):_鉴于中国 LLMs 的兴起及其独特生态系统,我们按主要开发地点标记模型。中国模型包括由中国大陆、台湾或香港的组织开发的模型(例如,阿里的 Qwen、月亮潮 AI 的 Kimi 或 DeepSeek)。RoW(世界其他地区)模型涵盖北美、欧洲和其他地区。
- _提示与完成令牌:_我们区分提示令牌(代表提供给模型的输入文本)和完成令牌(代表模型生成的输出)。总令牌等于提示令牌和完成令牌的总和。推理令牌代表具有原生推理能力的模型的内部推理步骤,包含在完成令牌内。
除非另有说明,令牌量是指提示(输入)和完成(输出)令牌的总和。
地理细分
为了理解 LLM 使用的区域模式,我们按用户地理区域细分请求。直接请求元数据(如基于 IP 的位置)通常不精确或被匿名化。相反,我们根据与每个账户关联的账单位置确定用户区域。这提供了用户地理的更可靠代理,因为账单数据反映与用户支付方式或账户注册关联的国家或地区。我们在我们对区域采用和模型偏好的分析中使用这种基于账单的细分。
这种方法有局限性。一些用户使用第三方账单或共享组织账户,这可能不对应其实际位置。企业账户可能在一个账单实体下聚合跨多个地区的活动。尽管存在这些不完善之处,考虑到我们有权访问的元数据,账单地理仍然是隐私保护地理分析可用的最稳定和可解释的指标。
时间框架和覆盖范围
我们的分析主要涵盖截至 2025 年 11 月的滚动 13 个月期间,但并非所有底层元数据都跨越这个完整窗口。大多数模型级别和定价分析集中在 2024 年 11 月 3 日至 2025 年 11 月 30 日的时间框架内。然而,类别级别分析(特别是那些使用 GoogleTagClassifier 分类法的分析)基于从 2025 年 5 月开始的较短的间隔,反映了 OpenRouter 上何时开始一致的标记。特别是,详细的任务分类字段(例如,如_编程_、_角色扮演_或_技术_的标签)仅在 2025 年中期添加。因此,类别部分的所有发现应解释为代表 2025 年中期使用,而不是整个前一年。
除非另有说明,所有时间序列聚合都使用 UTC 标准化时间戳按周计算,汇总提示和完成令牌。这种方法确保跨模型系列的可比性,并最小化来自瞬态峰值或区域时区效应的偏差。
开源与闭源模型
开源与闭源模型分类。 按来源类型划分的总令牌量周份额。较浅的蓝色阴影代表开放权重模型(中国与世界其他地区),而深蓝色对应专有(闭源)产品。垂直虚线标记关键开放权重模型的发布,包括 Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS 系列和 Qwen 3 Coder。
AI 生态系统中的一个核心问题是开放权重(为简单起见我们将其缩写为 OSS)和专有模型之间的平衡。下面的图表说明了这种平衡在过去一年中在 OpenRouter 上如何演变。虽然专有模型,特别是来自主要北美提供商的模型,仍然服务于大部分令牌,但 OSS 模型稳步增长,到 2025 年底达到约三分之一的用量。
这种扩展并非偶然。使用峰值与主要开放模型发布对齐,如 DeepSeek V3 和 Kimi K2(第一张图中的垂直虚线所示),表明竞争性 OSS 发布(如 DeepSeek V3 [9] 和 GPT OSS 模型 [8])被快速采用并维持其收益。重要的是,这些增长持续超过初始发布周,意味着真正的生产使用而不是短期实验。
按模型类型的周令牌量。 堆叠条形图显示随时间变化的按模型类别划分的总令牌使用量。深红色对应专有模型(闭源),橙色代表中国开源模型(中国 OSS),青色表示在中国境外开发的开源模型(RoW OSS)。该图表突出了 2025 年 OSS 令牌份额的逐渐增长,特别是从年中开始的中国 OSS 模型。
这种增长的很大一部分来自中国开发的模型。从 2024 年底可以忽略的基础开始(周份额低至 1.2%),中国 OSS 模型稳步获得牵引力,在某些周达到近 30% 的所有模型总使用量。在一年的窗口内,它们平均约占周令牌量的 13.0%,强劲增长集中在 2025 年下半年。相比之下,RoW OSS 模型平均为 13.7%,而专有 RoW 模型保留最大份额(平均 70%)。中国 OSS 的扩展不仅反映了竞争质量,还反映了快速迭代和密集发布周期。Qwen 和 DeepSeek 等模型保持了定期模型发布,能够快速适应新兴工作负载。这种模式实质性地重塑了开源片段,并推进了跨 LLM 领域的全球竞争。
这些趋势表明 LLM 生态系统中的持久双重结构。专有系统继续定义可靠性和性能的上限,特别是对于受监管或企业工作负载。相比之下,OSS 模型提供成本效率、透明度和定制性,使它们成为某些工作负载的有吸引力的选择。目前在大约 30% 达到平衡。 这些模型不是相互排斥的;相反,它们在开发者和基础设施提供商越来越青睐的多模型栈内相互补充。
主要开源参与者
下表根据我们数据集中服务的总令牌量对顶级模型系列进行排名。OSS 模型的格局在过去一年中发生了重大转变:虽然 DeepSeek 仍然是按量计算的最大 OSS 贡献者,但随着新进入者迅速获得优势,其主导地位有所减弱。如今,多个开源系列每个都维持着实质性的使用量,指向多元化的生态系统。
| 模型作者 | 总令牌(万亿) |
|---|---|
| DeepSeek | 14.37 |
| Qwen | 5.59 |
| Meta LLaMA | 3.96 |
| Mistral AI | 2.92 |
| OpenAI | 1.65 |
| Minimax | 1.26 |
| Z-AI | 1.18 |
| TNGTech | 1.13 |
| MoonshotAI | 0.92 |
| 0.82 |
顶级15个OSS模型随时间变化。 领先开源模型的周相对令牌份额(堆叠面积图)。每个彩色带代表一个模型对总 OSS 令牌的贡献。随着时间的推移,调色板的扩大表明了更具竞争力的分布,最近几个月没有单一主导模型。
该图说明了顶级单个开源模型市场份额的戏剧性演变,每周都在变化。在早期阶段(2024 年底),市场高度集中:DeepSeek 系列的两个模型(V3 和 R1)始终占所有 OSS 令牌使用量的一半以上,形成图表底部的大深蓝色带。
这种近乎垄断的结构在夏季拐点(2025 年中期)之后被打破。从那时起,市场变得更广泛和更深,使用显著多样化。Qwen 的模型、Minimax 的 M2、MoonshotAI 的 Kimi K2 和 OpenAI 的 GPT-OSS 系列等新进入者都快速增长,以服务请求的重大份额,通常在发布数周内实现生产规模采用。这表明开源社区和 AI 初创公司可以通过引入具有新颖能力或卓越效率的模型来实现快速采用。
到 2025 年底,竞争平衡已从近乎垄断转向多元混合。没有单一模型超过 OSS 令牌的 25%,令牌份额现在更均匀地分布在五到七个模型中。实际意义是用户在一系列更广泛的选择中找到价值,而不是默认选择一种"最佳"选择。虽然该图可视化了 OSS 模型之间的相对份额(不是绝对数量),但明确的趋势是向市场碎片化和开源生态系统内竞争增加的決定性转变。
总的来说,开源模型生态系统现在高度动态。 关键见解包括:
- 顶级多样性: 曾经一个系列(DeepSeek)主导 OSS 使用,我们现在越来越多地看到半打模型每个都维持有意义份额。没有单一开源模型持续持有超过约20-25%的 OSS 令牌。
- 新进入者快速扩展: 有能力的新开源模型可以在数周内捕获重大使用量。例如,MoonshotAI 的模型快速增长以挑战较老的 OSS 领导者,甚至像 MiniMax 这样的新进入者在单个季度内从零增长到实质流量。这表明低切换摩擦和渴望实验的用户群。
- 迭代优势: DeepSeek 保持在顶部的持久性强调持续改进的重要性。DeepSeek 的连续发布(Chat-V3、R1 等)使其即使在挑战者出现时也保持竞争力。开发停滞的 OSS 模型往往失去份额给那些在前沿具有频繁更新或域特定微调的模型。
如今,2025 年的开源 LLM 领域类似于一个竞争生态系统,创新周期快速,领导地位无法保证。对于模型构建者来说,这意味着发布具有最先进性能的开源模型可以产生立即采用,但维持使用份额需要持续投资于进一步开发。对于用户和应用程序开发者来说,趋势是积极的:有更丰富的开源模型选择可供选择,通常在特定领域(如角色扮演)具有可比或有时优于专有系统的能力。
模型规模与市场契合度:中型是新的小型
OSS 模型规模与使用量。 小型、中型和大型模型服务的总 OSS 令牌量周份额。百分比按每周总 OSS 使用量标准化。
一年前,开源模型生态系统很大程度上是两种极端之间权衡的故事:大量小型、快速模型和少数强大、大规模模型。然而,对过去一年的审查揭示了市场的重大成熟和新的、不断增长的类别的出现:中型模型。请注意,我们按参数数量对模型分类如下:
- 小型: 参数少于150亿的模型。
- 中型: 参数150亿到700亿的模型。
- 大型: 参数700亿或更多的模型。
开发者和用户行为的数据告诉我们一个细微的故事。图表显示,虽然所有类别的模型_数量_都有所增长,但_使用量_显著转移。小型模型正在失去青睐,而中大型模型正在捕获该价值。
按规模分类的 OSS 模型数量随时间变化。 可用开源模型的周计数,按参数大小类别分组。
更深入地了解驱动这些趋势的模型揭示了独特的市场动态:
- "小型"市场:整体使用量下降。 尽管有稳定的新模型供应,但小型模型类别整体上看到其使用份额下降。该类别的特点是高度分散。没有单一模型长期持有主导地位,它看到来自 Meta、Google、Mistral 和 DeepSeek 等多样化提供商的新进入者不断流动。例如,
Google Gemma 3.12B(2025年8月发布)快速采用,但在竞争激烈的领域中竞争,用户不断寻求下一个最佳替代方案。 - "中型"市场:寻找"模型-市场契合度"。 中型模型类别讲述了市场创建的清晰故事。该细分本身可以忽略,直到
Qwen2.5 Coder 32B在2024年11月发布,有效建立该类别。该细分然后随着其他强有力竞争者的到来而成熟为竞争生态系统,如Mistral Small 3(2025年1月)和GPT-OSS 20B(2025年8月),它们赢得了用户心智份额。该细分表明用户正在寻求能力和效率的平衡。 - "大型"模型细分:多元景观。 "追求质量"的趋势没有导致整合而是多样化。大型模型类别现在具有一系列高性能竞争者,从
Qwen3 235B A22B Instruct(2025年7月发布)和Z.AI GLM 4.5 Air到OpenAI: GPT-OSS-120B(8月5日):每个都捕获有意义且持续的使用量。这种多元主义表明用户正在积极基准测试多个开放大型模型,而不是收敛于单一标准。
小型模型主导开源生态系统的时代可能已经过去。市场现在正在分化,用户要么倾向于新的、强健的中型模型类别,要么将其工作负载整合到单个最有能力的大型模型上。
开源模型用于什么?
当今的开源模型用于非常广泛的任务范围,跨越创意、技术和信息领域。虽然专有模型仍在结构化业务任务中占主导地位,但 OSS 模型在两个特定领域确立了领导地位:创意角色扮演和编程辅助。这两个类别合计占 OSS 令牌使用量的大部分。
OSS 模型类别趋势。 高级任务类别中开源模型使用分布。角色扮演(约52%)和编程始终主导 OSS 工作负载组合,合计占大多数 OSS 令牌。较小部分包括翻译、一般知识问答等。
上图突显,超过一半的所有 OSS 模型使用属于_角色扮演_,_编程_是第二大类别。这表明用户主要转向开放模型用于创意交互对话(如讲故事、角色扮演和游戏场景)以及编码相关任务。角色扮演的主导地位(徘徊在所有 OSS 令牌的50%以上)突显了一个开源模型具有优势的用例:它们可以用于创造力,通常受内容过滤器限制较少,使其对幻想或娱乐应用具有吸引力。角色扮演任务需要灵活响应、上下文保持和情感细微差别——开源模型可以在不受商业安全或审核层严重限制的情况下有效交付的属性。这使得它们对尝试角色驱动体验、同人小说、互动游戏和模拟环境的社区特别有吸引力。
中国 OSS 类别趋势。 中国开发开源模型中的类别组成。角色扮演仍然是最大的用例,尽管编程和技术合计在这里占更大比例(33% 对比 38%)。
如果我们仅关注中国 OSS 模型,上图显示类别分解随时间变化。这些模型不再主要用于创意任务。角色扮演仍在大约33%的最大类别,但现在编程和技术合计占使用的大多数(39%)。这种转变表明 Qwen 和 DeepSeek 等模型越来越多地用于代码生成和基础设施相关工作负载。虽然高量企业用户可能影响特定细分,但整体趋势指向中国 OSS 模型在技术生产力领域直接竞争。
按模型来源的编程查询。 专有模型与中国 OSS 与非中国(RoW)OSS 模型处理的编程相关令牌份额。在 OSS 细分内,平衡在2025年末显著转向 RoW OSS,现在占所有开源编码令牌的一半以上(早期中国 OSS 主导 OSS 编码使用的时期之后)。
如果我们仅关注编程类别,我们观察到专有模型仍然处理大多数编码辅助整体(灰色区域),反映 Anthropic 的 Claude 等强劲产品。然而,在 OSS 部分,有显著转变:在2025年中期,中国 OSS 模型(蓝色)提供大多数开源编码帮助(由 Qwen 3 Coder 等早期成功驱动)。到2025年第四季度,西方 OSS 模型(如 Meta 的 LLaMA-2 Code 和 OpenAI 的 GPT-OSS 系列)激增,但最近几周整体份额下降。这种振荡表明非常竞争的环境。实际要点是开源代码助手使用是动态的并且对新模型质量高度响应:开发者对当前提供最佳编码支持的任何 OSS 模型持开放态度。作为限制,该图不显示绝对数量:开源编码使用整体增长,所以缩小的蓝色带并不意味着中国 OSS 失去用户,只是相对份额。
按模型来源的角色扮演查询。 角色扮演用例的令牌量,在中国 OSS 和 RoW OSS 模型之间分配。角色扮演仍然是两组的最大类别;到2025年末,流量在中国和非中国开放模型之间大致平均分配。
现在如果我们仅检查角色扮演流量,我们看到它现在几乎同样由世界其他地区 OSS(橙色,最近几周43%)和闭源(灰色,最近约42%)模型服务。这代表了2025年初的显著转变,当时该类别由专有(灰色)模型主导,持有约70%的令牌份额。当时(2025年5月),西方 OSS 模型仅占流量的约22%,中国 OSS(蓝色)模型持有小份额约8%。全年,专有份额稳步侵蚀。到2025年10月底,随着西方和中国开源模型都获得显著基础,这种趋势加速。
产生的趋同表明健康的竞争;用户对创意聊天和讲故事有来自开放和专有产品的可行选择。这反映了开发者认识到对角色扮演/聊天模型的需求并相应调整其发布(例如,在对话上微调,添加角色一致性对齐)。需要注意的一点是,"角色扮演"涵盖了一系列子类型(从随意聊天到复杂游戏场景)。然而,从宏观角度来看,很明显 OSS 模型在这个创意领域有优势。
解释。 总体而言,跨 OSS 生态系统,关键用例是:角色扮演和创意对话: 顶级类别,可能是因为开放模型可以不受审查或更容易为虚构人物和故事任务定制。编程辅助: 第二大,且增长,因为开放模型在代码方面变得更加有能力。许多开发者在本地利用 OSS 模型进行编码以避免 API 成本。翻译和多语言支持: 稳定用例,特别是有强大的双语模型可用(中国 OSS 模型在这里有优势)。一般知识问答和教育: 中等使用量;虽然开放模型可以回答问题,但用户可能更喜欢如 GPT-5 等闭源模型以获得最高事实准确性。
值得注意的是,OSS 使用模式(重角色扮演)反映了很多人可能认为的"发烧友"或"独立开发者"的领域——定制化和成本效率胜过绝对准确性的领域。然而,界限正在模糊:OSS 模型在技术领域快速改进,专有模型也被创造性地使用。
智能体推理的崛起
基于前一节对演变模型格局(开源与闭源)的看法,我们现在转向 LLM 使用本身的根本_形状_。在使用语言模型的生产方式中正在发生基础性转变:从单轮文本完成转向多步、工具集成和推理密集型工作流。我们将这一转变称为智能体推理的兴起,其中模型部署不仅仅是为了生成文本,而是通过规划、调用工具或跨扩展上下文交互来行动。本节通过五个代理追踪这种转变:推理模型的兴起、工具调用行为的扩展、序列长度概况的变化,以及编程使用如何驱动复杂性。
推理模型现在占所有使用的一半
推理与非推理令牌趋势。 自2025年初以来,通过推理优化模型路由的所有令牌份额稳步上升。该指标反映推理模型服务的所有令牌的_比例_,_不是_模型输出中"推理令牌"的份额。
如上图所示,通过推理优化模型路由的总令牌份额在2025年急剧上升。在2025年第一季度早期实际上是可忽略的使用份额现在超过五十%。这种转变反映了市场的两个方面。在供应方面,更高能力系统的发布,如 GPT-5、Claude 4.5 和 Gemini 3,扩展了用户对逐步推理的期望。在需求方面,用户越来越多地偏好可以管理任务状态、遵循多步逻辑并支持智能体式工作流而不是简单生成文本的模型。
按令牌量的顶级推理模型。 在推理模型中,xAI 的 Grok Code Fast 1 目前处理推理相关令牌流量的最大份额,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的 gpt-oss-120b 完成了顶级组。
上图显示了驱动这种转变的顶级模型。在最新数据中,xAI 的 Grok Code Fast 1 现在驱动推理流量的最大份额(不包括免费发布访问),领先于 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。这与仅几周前的显著变化,当时 Gemini 2.5 Pro 领导该类别,DeepSeek R1 和 Qwen3 也在顶级梯队。Grok Code Fast 1 和 Grok 4 Fast 快速获得份额,得到 xAI 的激进推出、竞争定价和围绕其面向代码变体的开发者关注的支持。同时,OpenAI 的 gpt-oss-120b 等开放模型的持续存在强调开发者仍然在可能时求助于 OSS。整体组合突显推理景观已经变得多么动态,快速模型轮换塑造哪些系统在真实工作负载中占主导地位。
数据指向明确结论:推理导向模型正在成为真实工作负载的默认路径,流经它们的令牌份额现在是用户希望如何与 AI 系统交互的领先指标。
提示-完成形状的剖析
提示令牌数量正在上升。 平均提示令牌长度自2024年初以来增长近四倍,反映越来越重的上下文工作负载。
完成令牌数量几乎三倍增长。 输出长度也增加了,尽管从较小的基线,表明更丰富、更详细的响应主要是由于推理令牌。
编程作为提示令牌增长的主要驱动因素。 由于标签从2025年春季开始可用,编程相关任务始终需要最大的输入上下文。
模型工作负载的形状在过去一年中显著演变。提示(输入)和完成(输出)令牌量都急剧上升,尽管规模和速度不同。每次请求的平均提示令牌从大约 1.5K 增长到超过 6K,约为四倍,而完成从大约 150 到 400 令牌几乎三倍。增长的相对幅度突显向更复杂、上下文丰富工作负载的决定性转变。
这种模式反映了模型使用的新平衡。今天的典型请求较少关于开放式生成("给我写一篇文章"),而更多关于对用户提供的大量材料(如代码库、文档、记录或长对话)进行推理,并产生简洁、高价值的洞察。模型越来越多地充当分析引擎而不是创意生成器。
类别级别数据(仅自2025年春季以来可用)提供了更细致的画面:编程工作负载是提示令牌增长的主要驱动因素。涉及代码理解、调试和代码生成的请求经常超过 20K 输入令牌,而所有其他类别保持相对平坦和低量。这种不对称贡献表明最近提示大小的扩展不是跨任务的统一趋势,而是与软件开发和技术推理用例相关的集中激增。
更长序列、更复杂交互
平均序列长度随时间变化。 每次生成的平均令牌数(提示 + 完成)。
编程与整体的序列长度。 编程提示系统性地更长且增长更快。
序列长度是任务复杂性和交互深度的代理。上图显示平均序列长度在过去的20个月中从2023年底的不到2,000令牌增长到2025年底的超过5,400令牌,增长超过三倍。这种增长反映了向更长上下文窗口、更深任务历史和更精细完成的结构性转变。
如前一节所示,第二张图进一步澄清:编程相关提示现在平均是通用提示令牌长度的3-4倍。分歧表明软件开发工作流是更长交互的主要驱动因素。长序列不仅仅是用户冗长:它们是嵌入式、更复杂智能体工作流的标志。
影响:智能体推理是新默认
总之,这些趋势(推理份额上升、工具使用扩展、更长序列和编程的超大复杂性)表明 LLM 使用的重心已经转移。中位数 LLM 请求不再是简单问题或孤立指令。相反,它是结构化、智能体式循环的一部分,调用外部工具,对状态进行推理,并在更长上下文持续。
对于模型提供商,这提高了默认能力的门槛。延迟、工具处理、上下文支持和对格式错误或对抗工具链的健壮性变得越来越重要。对于基础设施运营商,推理平台现在必须管理不仅仅是 stateless 请求,还有长时间运行的对话、执行跟踪和权限敏感工具集成。很快,如果不是已经,智能体推理将接管大部分推理。
类别:人们如何使用 LLMs?
理解用户使用 LLMs 执行的任务分布对于评估真实世界需求和_模型-市场契合度_至关重要。如数据与方法章节所述,我们将数十亿模型交互分类为高级应用类别。在开源与闭源模型章节中,我们专注于开源模型以查看社区驱动使用。在这里,我们将镜头扩展到 OpenRouter 上的_所有_ LLM 使用(闭源和开源模型)以获得人们在实践中使用 LLMs 做什么的综合图片。
主要类别
编程作为主导且增长的类别。 在编程分类的所有 LLM 查询份额稳步上升,反映 AI 辅助开发工作流的兴起。
编程已成为跨所有模型最持续扩展的类别。编程相关请求的份额在2025年稳步增长,与 LLM 辅助开发环境和工具集成的兴起并行。如上图所示,编程查询在2025年初占大约11%的总令牌量,最近几周超过50%。这种趋势反映从探索或对话使用向应用任务(如代码生成、调试和数据脚本)的转变。随着 LLMs 嵌入开发者工作流,它们的编程工具角色正在规范化。这一演变对模型开发有影响,包括对以代码为中心的训练数据的强调增加、对多步编程任务的推理深度改进,以及模型和集成开发环境之间更紧密的反馈循环。
这种对编程支持日益增长的需求正在重塑跨模型提供商的竞争动态。如下图所示,Anthropic 的 Claude 系列始终主导该类别,在观察的大部分期间占编程相关支出的60%以上。然而,景观仍有意义地演变。在11月17日这一周,Anthropic 的份额首次跌破60%阈值。自7月以来,OpenAI 将其份额从大约2%扩展到最近几周的大约8%,可能反映对以开发者为中心的工作负载的重新强调。在同一间隔内,Google 的份额保持稳定在大约15%。中端细分也在变动。包括 Z.AI、Qwen 和 Mistral AI 在内的开源提供商正在稳步获得心智份额。特别是 MiniMax,已经成为快速崛起的进入者,最近几周显示显著收益。
按模型提供商的编程请求份额。 编程工作负载高度集中:Anthropic 的模型服务编码查询的最大份额,其次是 OpenAI 和 Google,MiniMax 占据增长部分。其他提供商合计仅占很小一部分。该图省略了 xAI,它有大量使用但在一段时间内免费提供。
总体而言,编程已成为最具争议和策略重要性的模型类别。它吸引了顶级实验室的持续关注,即使是模型质量或延迟的微小变化也会逐周改变份额。对于基础设施提供者和开发者,这突显了持续基准测试和评估的必要性,特别是随着前沿的不断演变。
类别内的标签组合
按总令牌份额排名的前6个类别。 每个条形图显示该类别内主导子标签的分解。标签表示对该类别贡献至少7%令牌的子标签。
按令牌份额排名的其次6个类别。 次要类别的类似分解,说明每个域中子主题的集中度(或缺乏)。
上图分解了跨十二个最常见内容类别的 LLM 使用,揭示了每个的内部子主题结构。关键要点是大多数类别不是均匀分布的:它们由一两个重复使用模式主导,通常反映集中用户意图或与 LLM 优势的契合。
在高容量类别中,角色扮演因其一致性和专业化而突出。近60%的角色扮演令牌属于_游戏/角色扮演游戏_,表明用户将 LLMs 较少视为随意聊天机器人,更多作为结构化角色扮演或角色引擎。这通过_Writers Resources_(15.6%)和_成人_内容(15.4%)的存在进一步增强,指向互动小说、场景生成和个人幻想的混合。与角色扮演主要是非正式对话的假设相反,数据显示了明确定义和可复制的基于流派的用例。
编程同样偏斜,超过三分之二的流量标记为_编程/其他_。这表明与代码相关提示的广泛和通用性质:用户不狭隘地关注特定工具或语言,而是向 LLMs 寻求从逻辑调试到脚本起草的所有内容。也就是说,开发工具(26.4%)和脚本语言的小份额表明出现专业化。这种碎片化为模型构建者提供了改进围绕结构化编程工作流的标记或训练的机会。
除了角色扮演和编程的主导类别外,剩余领域代表了多样化但低容量的 LLM 使用尾巴。虽然个别较小,但它们揭示了用户如何跨专业和新兴任务与模型交互的重要模式。例如,翻译、科学和健康显示相对平坦的内部结构。在翻译中,使用几乎均匀分配在_外语资源_(51.1%)和_其他_之间,表明扩散需求:多语言查找、重新表达、轻度代码切换,而不是持续的文档级翻译。科学由单一标签_机器学习与AI_(80.4%)主导,表明大多数科学查询是元 AI 问题而不是一般 STEM 主题如物理或生物学。这反映了用户兴趣或模型优势偏向自我参照查询。
相比之下,健康是顶级类别中最分散的,没有子标签超过25%。令牌分布在医学研究、咨询服务、治疗指导和诊断查找之间。这种多样性突显了该领域的复杂性,但也突出了安全建模它的挑战:LLMs 必须跨越高方差用户意图,通常在敏感上下文中,没有明确集中在单一用例中。
将这些长尾类别联系起来的是它们的广泛性:用户转向 LLMs 进行探索性、轻度结构化或寻求帮助的交互,但没有看到编程或个人助理中看到的集中工作流。总的来说,这些次要类别可能不会主导数量,但它们暗示潜在需求。它们表明 LLMs 正在许多领域的边缘使用,从翻译到医学指导到 AI 内省,随着模型在域健壮性和工具集成方面的改进,我们可能看到这些分散意图收敛为更清晰、更大量的应用。
相比之下,金融、学术和法律更加分散。金融将其容量分布在外汇、社会责任投资和审计/会计:没有单一标签超过20%。法律显示类似熵,使用在_政府/其他_(43.0%)和_法律/其他_(17.8%)之间分配。这种碎片化可能反映这些领域的复杂性,或者仅仅是与编码和聊天等更成熟类别相比缺乏针对性 LLM 工作流。
数据表明真实世界 LLM 使用不是均匀探索的:它紧密聚集在一小组可重复、高容量任务周围。角色扮演、编程和个人助理各自表现出清晰结构和主导标签。相比之下,科学、健康和法律领域更加分散,可能优化不足。这些内部分布可以指导模型设计、域特定微调和应用程序级接口,特别是在为用户目标定制 LLMs 时。
不同模型作者以不同使用模式利用。下图显示了主要模型系列(Anthropic 的 Claude、Google 的模型、OpenAI 的 GPT 系列、DeepSeek 和 Qwen)的内容类别分布。每个条形图代表该提供商100%的令牌使用量,按顶级标签分解。
Anthropic。 主要用于编程和技术任务(超过80%),角色扮演使用最少。
Google。 广泛的使用组成,涵盖法律、科学、技术和一些一般知识查询。
xAI。 令牌使用严重集中在编程上,技术、角色扮演和学术在11月下旬更突出地出现。
OpenAI。 随着时间的推移转向编程和技术任务,角色扮演和随意聊天显著减少。
DeepSeek。 使用由角色扮演和随意交互主导。
Qwen。 在编程任务中强烈集中,角色扮演和科学类别随时间波动。
Anthropic 的 Claude 严重偏向编程+技术使用,两者合计超过其使用的80%。角色扮演和一般问答只是一小部分。这确认了 Claude 作为针对复杂推理、编码和结构化任务优化的模型的定位;开发者和企业似乎主要将 Claude 用作编码助手和问题解决者。
Google 的模型使用更加多样化。我们看到翻译、科学、技术和一些一般知识的显著细分。例如,Google 使用的大约5%是法律或政策内容,另一个大约10%与科学相关。它可能暗示 Gemini 的广泛训练焦点。与其他人相比,Google 编码份额相对较少,实际上到2025年底下降(下降到大约18%),类别尾巴更广泛。这表明 Google 的模型更多用作通用信息引擎。
xAI 的使用配置文件与其他提供商不同。在大部分期间,使用压倒性地集中在编程上,通常超过所有令牌的80%。只有在11月下旬,分布才扩大,在技术、角色扮演和学术中有显著收益。这种急剧转变与 xAI 的模型通过精选消费者应用程序免费分发的时间相吻合,这可能引入了大量非开发者流量的涌入。结果是使用组成混合了早期的、以开发者为中心的核心和一般参与的突然浪潮,表明 xAI 的采用路径既由技术用户塑造,也由与促销可用性相关的偶发激增塑造。
OpenAI 的使用配置文件在2025年显著转变。今年早些时候,科学任务占所有 OpenAI 令牌的一半以上;到2025年底,该份额已下降到15%以下。与此同时,编程和技术相关使用现在占总量的一半以上(各29%),反映更深入集成到开发者工作流、生产力工具和专业应用程序中。OpenAI 的使用组成现在介于 Anthropic 的紧密聚焦配置文件和 Google 的更分散分布之间,表明广泛的效用基础和向高价值、结构化任务日益增长的倾斜。
DeepSeek 和 Qwen 表现出与前面讨论的其他模型系列显著不同的使用模式。DeepSeek 的令牌分布由角色扮演、随意聊天和娱乐导向交互主导,通常占其总使用的三分之二以上。只有一小部分活动落入结构化任务如编程或科学。这种模式反映了 DeepSeek 的强烈消费者定位及其作为高参与度对话模型的定位。值得注意的是,DeepSeek 在编程相关使用方面显示温和但稳定的增长Towards late summer,暗示在轻量级开发工作流中的增量采用。
相比之下,Qwen 呈现几乎反转的配置文件。在显示的整个期间,编程始终代表所有令牌的40-60%,表明对技术和开发者任务的明确强调。与 Anthropic 的更稳定、工程重的组成相比,Qwen 在科学、技术和角色扮演等相邻类别中表现出更高的波动性。这些逐周变化暗示异构用户群和应用用例中的快速迭代。9月和10月角色扮演使用的显著上升,然后11月收缩,暗示用户行为的演变或下游应用程序路由的调整。
总之,每个提供商都显示出与其战略重点相符的不同配置文件。差异突显了为什么没有单一模型或提供商能够最佳地覆盖所有用例;它也强调了多模型生态系统的潜在好处。
地理分布:LLM 使用如何跨区域差异
全球 LLM 使用表现出明显的区域差异。通过检查地理细分,我们可以推断本地使用和支出如何塑造 LLM 使用模式。虽然下图反映了 OpenRouter 的用户群,但它们提供了区域参与的一个快照。
使用的区域分布
如下图所示,支出的分布强调了 AI 推理市场日益增长的全球性质。北美,虽然仍然是最大的单一地区,但现在占观察期间大部分时间总支出的一半以下。欧洲显示出稳定和持久的贡献。其周支出的相对份额在整个时间线中保持一致,通常占据十几岁和二十出头的区间。一个显著发展是亚洲的崛起,不仅作为前沿模型的生产者,也作为快速扩张的消费者。在数据集的最早几周,亚洲约占全球支出的13%。随着时间的推移,这一份额增加了一倍多,在最近期间达到大约31%。
按世界地区的支出量随时间变化。 归因于每个大洲的全球使用的周份额。
| 大洲 | 份额(%) |
|---|---|
| 北美 | 47.22 |
| 亚洲 | 28.61 |
| 欧洲 | 21.32 |
| 大洋洲 | 1.18 |
| 南美 | 1.21 |
| 非洲 | 0.46 |
| 国家 | 份额(%) |
|---|---|
| 美国 | 47.17 |
| 新加坡 | 9.21 |
| 德国 | 7.51 |
| 中国 | 6.01 |
| 韩国 | 2.88 |
| 荷兰 | 2.65 |
| 英国 | 2.52 |
| 加拿大 | 1.90 |
| 日本 | 1.77 |
| 印度 | 1.62 |
| 其他(60+国家) | 16.76 |
语言分布
| 语言 | 令牌份额(%) |
|---|---|
| 英语 | 82.87 |
| 中文(简体) | 4.95 |
| 俄语 | 2.47 |
| 西班牙语 | 1.43 |
| 泰语 | 1.03 |
| 其他(组合) | 7.25 |
如上表所示,英语占主导地位,占所有令牌的80%以上。这反映了英语语言模型的普及和 OpenRouter 用户群的以开发者为中心的倾斜。然而,其他语言,特别是中文、俄语和西班牙语,构成了有意义的尾巴。单独的简体中文占全球令牌的近5%,表明双语或中文优先环境中用户的持续参与,特别是考虑到 DeepSeek 和 Qwen 等中国 OSS 模型的增长。
对于模型构建者和基础设施运营商,跨区域可用性、跨语言、合规制度和部署设置,在 LLM 采用同时全球化和本地优化的世界中正成为基本要求。
LLM 用户留存分析
灰姑娘"玻璃鞋"现象
Claude 4 Sonnet
Gemini 2.5 Pro
Gemini 2.5 Flash
OpenAI GPT-4o Mini
Llama 4 Maverick
Gemini 2.0 Flash
DeepSeek R1
DeepSeek Chat V3-0324
队列留存率。留存被测量为_活动留存_,其中如果用户在后续月份返回,即使在静止期之后,也计算用户;因此,曲线可能显示小的非单调凸起。
这一系列留存图表捕获了跨领先模型的 LLM 用户市场的动态。乍一看,数据由高流失率和快速队列衰减主导。然而,在这种波动性之下,存在更微妙和更有意义的信号:一小组早期用户队列表现出随时间的持久留存。我们称这些为_基础队列_。
这些队列不仅仅是早期采用者;它们代表工作负载已实现深度和持久_工作负载-模型契合_的用户。一旦建立,这种契合创造了抵抗替代的经济和认知惯性,即使更新的模型出现。
我们引入灰姑娘玻璃鞋效应作为描述这种现象的框架。该假设假设在快速演变的 AI 生态系统中,存在高价值工作负载的潜在分布,在连续模型代中仍未解决。每个新前沿模型有效地针对这些开放问题"试穿"。当新发布的模型恰好匹配以前未满足的技术和经济约束时,它实现了精确契合——比喻的"玻璃鞋"。
对于其工作负载最终"适合"的开发者或组织,这种对齐创造了强大的锁定效应。他们的系统、数据管道和用户体验锚定在首先解决问题的模型上。随着成本下降和可靠性提高,重新平台的动机急剧减弱。相比之下,未找到这种契合的工作负载保持探索性,从一个模型迁移到另一个模型以寻找自己的解决方案。
从经验上看,这种模式在Gemini 2.5 Pro的2025年6月队列和Claude 4 Sonnet的2025年5月队列中可观察到,它们在第5个月保留大约40%的用户,显著高于后续队列。这些队列似乎对应于特定技术突破(例如,推理保真度或工具使用稳定性),最终实现了以前不可能的工作负载。
- 首先解决作为持久优势。 当模型是_第一个解决_关键工作负载时,经典的首要优势获得意义。早期采用者将模型嵌入到管道、基础设施和用户行为中,导致高切换摩擦。这创造了一个稳定的平衡,其中模型保留其基础队列,即使更新的替代方案出现。
主导发布异常。 OpenAI GPT-4o Mini 图表在极端情况下显示这种现象。单个基础队列(2024年7月,橙色线)在发布时建立了主导的、粘性工作负载-模型契合。所有后续队列,在这种契合建立和市场进展_之后_到达,表现相同:它们流失并聚集在底部。这表明建立这种基础契合的窗口是单一的,只发生在模型被视为"前沿"的时刻。
无契合的后果。 Gemini 2.0 Flash 和 Llama 4 Maverick 图表展示了当这种初始契合从未建立时发生什么的警示故事。与其他模型不同,没有高性能的基础队列。每个队列表现同样糟糕。这表明这些模型从未被视为高价值、粘性工作负载的"前沿"。它直接进入_足够好_市场,因此未能锁定任何用户基础。同样,DeepSeek 的混乱图表,尽管总体上压倒性成功,努力建立稳定的基础队列。
回旋镖效应。 DeepSeek 模型引入更复杂的模式。它们的留存曲线显示高度异常的异常:复活跳跃。与典型的、单调递减的留存不同,几个 DeepSeek 队列在初始流失期后显示留存的明显上升(例如,DeepSeek R1 的2025年4月队列在第3个月左右,以及 DeepSeek Chat V3-0324 的2025年7月队列在第2个月左右)。这表明一些流失用户正在返回模型。这种"回旋镖效应"表明这些用户在尝试替代品并通过竞争测试确认 DeepSeek 为其特定工作负载提供最佳且通常更好的契合后,返回 DeepSeek,这是由于专业性能、成本效率或其他独特特征的卓越组合。
影响。 _玻璃鞋_现象将留存重新定义为不是结果,而是理解能力突破的镜头。基础队列是真正技术进步的指纹:它们标记 AI 模型从新颖性跨越到必要性的地方。对于构建者和投资者一样,尽早识别这些队列可能是持久模型-市场优势的最具预测性信号。
成本与使用动态
使用模型的成本是影响用户行为的关键因素。在本节中,我们专注于不同 AI 工作负载类别如何分布在成本-使用景观中。通过检查类别在对数-对数成本与使用图上的聚集位置,我们识别工作负载如何在低成本、高容量区域与高成本、专业细分中集中的模式。我们还参考与杰文森悖论效应的相似之处,即低成本类别通常对应更高的总使用量,尽管我们不试图正式分析悖论或因果关系。
按类别分析 AI 工作负载细分
按类别的对数成本与对数使用
散点图揭示了 AI 用例的明显细分,根据其总使用量(总令牌)与其单位成本(每100万令牌成本)映射它们。一个关键的初步观察是两个轴都是对数的。这种对数缩放表明图表上的小视觉距离对应于真实世界数量和成本中实质性的乘法差异。
图表被垂直线在每100万令牌0.73美元的中位成本处平分,有效地创建了一个四象限框架来简化跨类别的 AI 市场。
注意这些终端成本与广告标价不同。高频工作负载受益于缓存,这驱动了实现的支出并产生了比公开列出的实质性更低的有效价格。显示的成本指标反映了跨提示和完成令牌的混合率,提供了用户实际支付的总量的更准确视图。数据集还排除了 BYOK 活动以隔离标准化、平台中介的使用并避免来自定制基础设施设置的扭曲。
高级工作负载(右上): 该象限包含高成本、高使用应用程序,现在包括技术和科学,定位在交叉点右侧。这些代表有价值且广泛使用的专业工作负载,用户愿意为性能或专业能力支付溢价。技术是一个显著的异常值,比任何其他类别都要昂贵得多。这表明技术作为一个用例(可能与复杂系统设计或架构相关)可能需要更强大和更昂贵的模型进行推理,但它保持了高使用量,表明其基本性质。
大众市场容量驱动因素(左上): 该象限由高使用量和低、平均或以下成本定义。该区域由两个巨大用例主导:角色扮演、编程以及科学。
编程作为"杀手级专业"类别脱颖而出,展示最高使用量,同时具有高度优化、中位成本。角色扮演的使用量巨大,几乎与编程相媲美。这是一个引人注目的见解:面向消费者的角色扮演应用程序驱动与顶级专业应用程序相媲美的参与容量。
这两个类别的巨大规模证实了专业生产力和对话娱乐都是 AI 的主要、巨大驱动因素。该象限中的成本敏感性是,正如之前注意到的,开源模型已经找到了显著优势。
专业专家(右下): 该象限包含低容量、高成本应用程序,包括金融、学术、健康和营销。这些是高风险、专业领域。较低的总量是合乎逻辑的,因为人们可能为"健康"或"金融"咨询 AI 的频率远低于"编程"。用户愿意为这些任务支付重大溢价,可能是因为对准确性、可靠性和领域特定知识的需求极高。
小众实用程序(左下): 该象限具有低成本、低容量任务,包括翻译、法律和琐事。这些是功能性、成本优化的实用程序。翻译在该组内具有最高容量,而trivia具有最低容量。它们的低成本和相对低容量表明这些任务可能是高度优化的、"解决的"或商品化的,其中可用的足够好的替代品便宜。
如所述,该图上最显著的异常值是技术。它以实质性优势保持最高每令牌成本,同时保持高使用量。这强烈表明具有高支付意愿的高价值、复杂答案的市场细分(例如,系统架构、高级技术问题解决)。一个关键问题是这种高价格是由高用户价值("需求侧"机会)还是由高服务成本("供应侧"挑战)驱动的,因为这些查询可能需要最强大的前沿模型。在技术中要获得的"游戏"是为这个高价值市场提供服务。可能通过高度优化的专业模型为此细分提供服务的提供商可能能够捕获具有更高利润的市场。
AI 模型的有效成本与使用
开源与闭源模型景观:成本与使用(对数-对数规模)。 每个点代表 OpenRouter 上提供的模型,按来源类型着色。闭源模型聚集在高成本、高使用象限,而开源模型主导低成本、高容量区域。虚线趋势线几乎平坦,显示成本与总使用量之间的相关性有限。注意:该指标反映跨提示和完成令牌的混合平均,由于缓存,有效价格通常低于列表价格。BYOK 活动被排除。
上图将模型使用映射到每100万令牌成本(对数-对数规模),揭示了弱的整体相关性。x 轴为方便起见映射名义值。趋势线几乎平坦,表明需求相对缺乏价格弹性;价格下降10%对应使用量仅增加约0.5-0.7%。然而,图表上的分散substantial,反映了强烈的市场细分。出现两个不同的制度:来自 OpenAI 和 Anthropic 的专有模型占据高成本、高使用区域,而开放模型如 DeepSeek、Mistral 和 Qwen 填充低成本、高容量区域。这种模式支持一个简单的启发式:闭源模型捕获高价值任务,而开源模型捕获高容量较低价值任务。 微弱的价格弹性表明即使巨大成本差异也不会完全转移需求;专有提供商为关键任务应用程序保留定价权,而开放生态系统吸收来自价格敏感用户的容量。
AI 模型市场地图:成本与使用(对数-对数规模)。 类似于上图,但每个点按模型提供商着色。
| 细分 | 模型 | 每100万价格 | 使用量(对数) | 要点 |
|---|---|---|---|---|
| 高效巨头 | google/gemini-2.0-flash | $0.147 | 6.68 | 低价格和强大分布使其成为默认高容量主力 |
| 高效巨头 | deepseek/deepseek-v3-0324 | $0.394 | 6.55 | 以便宜成本竞争质量驱动大规模采用 |
| 高级领导者 | anthropic/claude-3.7-sonnet | $1.963 | 6.87 | 尽管高级价格,使用量非常高,表明对质量和可靠性的偏好 |
| 高级领导者 | anthropic/claude-sonnet-4 | $1.937 | 6.84 | 企业工作负载对可信前沿模型表现为价格无弹性 |
| 长尾 | qwen/qwen-2-7b-instruct | $0.052 | 2.91 | 极低价格但有限范围,可能是由于较弱的模型-市场契合度 |
| 长尾 | ibm/granite-4.0-micro | $0.036 | 2.95 | 便宜但小众,主要在有限设置中使用 |
| 高级专家 | openai/gpt-4 | $34.068 | 3.53 | 高成本和中等使用量,保留用于最苛刻任务 |
| 高级专家 | openai/gpt-5-pro | $34.965 | 3.42 | 超高级模型,具有专注的高风险工作负载。由于最近发布,采用仍处于早期阶段。 |
上图类似于前图但显示模型作者。出现四种使用-成本原型。高级领导者,如 Anthropic 的 Claude 3.7 Sonnet 和 Claude Sonnet 4,命令每100万令牌约2美元的成本,仍然达到高使用量,表明用户愿意为规模上的卓越推理和可靠性付费。高效巨头,如 Google 的 Gemini 2.0 Flash 和 DeepSeek V3 0324,将强大性能与每100万令牌低于0.40美元的价格配对,实现类似的使用水平,使它们对高容量或长上下文工作负载具有吸引力。_长尾_模型,包括 Qwen 2 7B Instruct 和 IBM Granite 4.0 Micro,每100万令牌定价仅为几美分,但位于总使用量约10^2.9,反映了来自较弱性能、有限可见性或较少集成的约束。最后,高级专家,如 OpenAI 的 GPT-4 和 GPT-5 Pro,占据高成本、低使用象限:在每100万令牌约35美元和使用量接近10^3.4,它们被谨慎用于小众、高风险工作负载,其中输出质量比边际令牌成本重要得多。
总的来说,散点图突显 LLM 市场中的定价权不是统一的。虽然更便宜的模型可以通过效率和集成驱动规模,但高级产品仍在风险高的地方保持强劲需求。这种碎片化表明市场尚未商品化,并且差异化,无论通过延迟、上下文长度或输出质量,仍然是战略优势的来源。
这些观察表明以下内容:
- 在宏观层面,需求无弹性,但这掩盖了不同的微观行为。具有关键任务任务的企业将支付高价格(因此这些模型看到高使用量)。另一方面,爱好者和开发管道对成本非常敏感,涌向更便宜的模型(导致高效模型的大量使用)。
- 有一些杰文森悖论的证据:使一些模型非常便宜(和快速)导致人们将它们用于更多任务,最终消耗更多总令牌。我们在这高效巨头群体中看到这一点:随着每令牌成本下降,这些模型被集成到各处,总消耗飙升(人们运行更长上下文、更多迭代等)。
- 质量和能力通常胜过成本: 昂贵模型(Claude、GPT-4)的重使用量表明,如果模型明显更好或有信任优势,用户将承担更高成本。通常这些模型集成在工作流中,其中成本相对于它们产生的价值可以忽略(例如,节省一小时开发者时间的代码价值远高于一些美元 API 调用的价值)。
- 相反,仅仅便宜是不够的,模型还必须是可区分和充分有能力的。许多定价接近零的开源模型仍然是因为它们只是足够好,但没有找到_工作负载-模型契合_或不够可靠,所以开发者犹豫深度集成它们。
从运营商的角度来看,出现了几个战略模式。像 Google 这样的提供商已经大力投入分层产品(最值得注意的是 Gemini Flash 和 Pro),明确权衡速度、成本和能力。这种分层通过价格敏感性和任务关键性实现市场细分:轻量级任务路由到更便宜、更快的模型;高级模型服务复杂或延迟容忍工作负载。为用例和可靠性优化通常与"削减"价格一样有影响。更快、专用模型可能比更便宜但不可预测的模型更受欢迎,特别是在生产设置中。这将焦点从每令牌成本转移到每成功结果成本。相对平坦的需求弹性表明 LLMs 尚未成为商品——许多用户愿意为质量、能力或稳定性支付溢价。 差异化仍然有价值,特别是当任务结果比边际令牌节省更重要时。
讨论
这项实证研究提供了关于 LLMs 实际使用方式的数据驱动视角,突出了几个主题,这些主题使关于 AI 部署的conventional wisdom 变得细致:
1. 多模型生态系统。 我们的分析表明没有单一模型主导所有使用。相反,我们观察到丰富的多模型生态系统,闭源和开源模型都捕获重大份额。例如,尽管 OpenAI 和 Anthropic 模型在许多编程和知识任务中领先,开源模型如 DeepSeek 和 Qwen 合计服务了总令牌的很大一部分(有时超过30%)。这表明 LLM 使用的未来可能是模型不可知和异质的。对于开发者来说,这意味着保持灵活性、集成多个模型并为每个工作选择最佳模型,而不是将一切都押在单一模型的至高无上。对于模型提供商来说,它强调竞争可能来自意想不到的地方(例如,社区模型可能会侵蚀你的部分市场,除非你持续改进和差异化)。
2. 超越生产力的使用多样性。 一个令人惊讶的发现是_角色扮演和娱乐导向使用_的巨大量。超过一半的开源模型使用用于角色扮演和故事讲述。即使在专有平台上,ChatGPT 早期使用的非琐碎部分是随意和创造性的,然后专业用例增长。这反驳了 LLMs 主要用于编写代码、电子邮件或摘要的假设。实际上,许多用户与这些模型互动是为了陪伴或探索。这有重要影响。它突显了面向消费者应用程序的重大机会,这些应用程序融合叙事设计、情感参与和互动性。它表明个性化的新前沿——演化物个性、记住偏好或维持长形式交互的代理。它还重新定义模型评估指标:成功可能较少依赖于事实准确性,更多依赖于一致性、连贯性和维持引人入胜的对话的能力。最后,它为 AI 和娱乐 IP 之间的交叉开辟了路径,在互动讲故事、游戏和创作者驱动的虚拟角色方面具有潜力。
3. 智能体与人类:智能体推理的崛起。 LLM 使用正在从单轮交互转向_智能体推理_,其中模型跨多个步骤规划、推理和执行。它们现在不是产生一次性响应,而是协调工具调用、访问外部数据并迭代优化输出以实现目标。早期证据显示上升的多步查询和链接工具使用,我们将其代理为智能体使用。随着这种范式扩展,评估将从语言质量转向任务完成和效率。下一个竞争前沿是模型如何有效地_执行持续推理_,这种转变可能最终重新定义智能体推理在实践中的规模化意义。
4. 地理展望。 LLM 使用正变得越来越_全球化和分散_,在北美之外快速增长。亚洲总令牌需求的份额从约13%上升到31%,反映了更强的企业采用和创新。与此同时,中国已成为一股重要力量,不仅通过国内消费,还通过生产具有全球竞争力的模型。更广泛的要点:LLMs 必须全球有用,在语言、上下文和市场中表现良好。下一阶段的竞争将取决于文化适应性和多语言能力,而不仅仅是模型规模。
5. 成本与使用动态。 LLM 市场似乎还没有像商品一样表现:价格本身对使用量解释甚少。用户平衡成本与推理质量、可靠性和能力广度。闭源模型继续捕获高价值、收入相关的工作负载,而开源模型主导较低成本和高容量任务。这创造了一个动态平衡——较少定义稳定性,更多定义来自下方的持续压力。开源模型不断推动_高效前沿_,特别是在推理和编码领域(例如 Kimi K2 Thinking),其中快速迭代和 OSS 创新缩小了性能差距。开源模型的每一次改进都会压缩专有系统的定价权,迫使它们通过卓越集成、一致性和企业支持来证明溢价的合理性。 resulting 竞争快速移动、不对称和持续变化。随着时间的推移,随着质量收敛加速,价格弹性可能会增加,将曾经差异化的市场转变为更流动的市场。
6. 留存和灰姑娘玻璃鞋现象。 随着基础模型跳跃式而不是渐进式进步,留存已成为防御能力的真正衡量标准。每次突破都创造一个短暂的发布窗口,模型可以完美"适合"高价值工作负载(灰姑娘玻璃鞋时刻),一旦用户找到这种契合,他们就会停留。在范式中,产品-市场契合等于工作负载-模型契合:成为第一个解决真正痛点的驱动深度、粘性采用,因为用户围绕该能力构建工作流和习惯。然后切换变得昂贵,无论技术还是行为上。对于构建者和投资者来说,要观察的信号不是增长而是留存曲线,特别是形成持续模型更新的基础队列。在日益快速的市场中,尽早捕获这些重要的未满足需求决定了谁在下一个能力飞跃后能够承受。
总的来说,LLMs 正在成为跨领域推理类任务的基本计算基础,从编程到创意写作。随着模型继续进步和部署扩展,对真实世界使用动态的准确洞察对于做出明智决策至关重要。人们使用 LLMs 的方式并不总是与期望一致,并且因国家、州、用例而显著不同。通过大规模观察使用,我们可以将我们对 LLM 影响的理解建立在现实基础上,确保后续发展,无论是技术改进、产品功能还是法规,都与实际使用模式和需求一致。我们希望这项工作作为更多实证研究的基础,并鼓励 AI 社区在我们构建下一代前沿模型时持续测量和学习真实世界使用。
局限性
这项研究反映了在单一平台(即 OpenRouter)和有限时间窗口内观察到的模式,仅提供更广泛生态系统的部分视图。某些维度,如企业使用、本地托管部署或闭源内部系统,仍在我们数据范围之外。此外,我们的一些数据分析依赖于_代理措施_:例如,通过多步或工具调用调用识别智能体推理,或从账单而不是验证位置数据推断用户地理。因此,结果应解释为指示性行为模式,而不是底层现象的确定性测量。
结论
这项研究提供了关于大语言模型如何嵌入世界计算基础设施的实证视图。它们现在对工作流、应用程序和智能体系统至关重要,转变了信息生成、调解和消费的方式。
过去一年催化了该领域构思_推理_的阶梯变化。_o1_类模型的出现规范了扩展推理和工具使用,将评估从单次基准转向基于过程的指标、延迟-成本权衡和编排下的任务成功。推理已成为衡量模型如何有效规划和验证以提供更可靠结果的指标。
数据显示 LLM 生态系统结构多元。没有单一模型或提供商主导;相反,用户根据上下文在能力、延迟、价格和信任等多个轴上选择系统。这种异质性不是过渡阶段,而是市场的基本属性。它促进快速迭代并减少对任何单一模型或堆栈的系统依赖。
推理本身也在变化。多步和工具链接交互的兴起标志着从静态完成到动态编排的转变。用户正在链接模型、API 和工具来实现复合目标,产生了可描述为_智能体推理_的现象。有许多理由相信智能体推理将超过(如果不是已经)人类推理。
地理上,景观正变得更分散。亚洲使用份额继续扩大,中国具体已成为模型开发者和出口国,由月亮潮 AI、DeepSeek 和 Qwen 等参与者的崛起所说明。非西方开放权重模型的成功表明 LLMs 是真正的全球计算资源。
实际上,_o1_没有结束竞争。远非如此。它扩展了设计空间。该领域正朝着系统思维而不是单一赌注,朝着仪器化而不是直觉,朝着实证使用分析而不是排行榜增量。如果过去一年证明了智能体推理在规模上是可行的,下一个将专注于运营卓越:测量真实任务完成、减少分布下的差异并将模型行为与生产规模工作负载的实际需求对齐。
参考文献
-
R. Appel, J. Zhao, C. Noll, O. K. Cheche, and W. E. Brown Jr. Anthropic 经济指数报告:不均衡的地理和企业 AI 采用。arXiv 预印本 arXiv:2511.15080,2025。网址 https://arxiv.org/abs/2511.15080。
-
A. Chatterji, T. Cunningham, D. J. Deming, Z. Hitzig, C. Ong, C. Y. Shan, and K. Wadman. 人们如何使用 ChatGPT。NBER 工作论文 34255,2025。网址 https://cdn.openai.com/pdf/a253471f-8260-40c6-a2cc-aa93fe9f142e/economic-research-chatgpt-usage-paper.pdf。
-
W. Zhao, X. Ren, J. Hessel, C. Cardie, Y. Choi, and Y. Deng. WildChat:野生环境中的 100万 ChatGPT 交互日志。arXiv 预印本 arXiv:2405.01470,2024。网址 https://arxiv.org/abs/2405.01470。
-
OpenAI. OpenAI o1 系统卡。arXiv 预印本 arXiv:2412.16720,2024。网址 https://arxiv.org/abs/2412.16720。
-
W. L. Chiang, L. Zheng, Y. Sheng, A. N. Angelopoulos, T. Li, D. Li, H. Zhang, B. Zhu, M. Jordan, J. Gonzalez, and I. Stoica. Chatbot Arena:用于通过人类偏好评估 LLMs 的开放平台。arXiv 预印本 arXiv:2403.04132,2024。网址 https://arxiv.org/abs/2403.04132。
-
J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. H. Chi, F. Xia, Q. Le, and D. Zhou. 思维链提示引发大语言模型中的推理。神经信息处理系统进展,35:24824–24837,2022。网址 https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html。
-
S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao. ReAct:在语言模型中协同推理和行动。学习表示国际会议(ICLR),2023。网址 https://arxiv.org/abs/2210.03629。
-
A. Grattafiori, A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. Al-Dahle, A. Letman, A. Mathur, A. Schelten, A. Yang, A. Fan, 等。Llama 3 模型群。arXiv 预印本 arXiv:2407.21783,2024。网址 https://arxiv.org/abs/2407.21783。
-
DeepSeek-AI, A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu, C. Zhao, C. Deng, C. Zhang, 等。DeepSeek-V3 技术报告。arXiv 预印本 arXiv:2412.19437,2024。网址 https://arxiv.org/abs/2412.19437。
贡献
这项工作是通过 OpenRouter 团队开发的基础平台、基础设施、数据集和技术愿景成为可能的。特别是,Alex Atallah、Chris Clark、Louis Vichy 提供了工程基础和架构方向,使本研究进行的探索成为可能。Justin Summerville 在实现、测试和实验改进方面贡献了基本支持。额外贡献包括 Natwar Maheshwari 的发布支持和 Julian Thayn 的设计编辑。
Malika Aubakirova(a16z)担任主要作者,负责实验设计、实现、数据分析和论文的完整准备。Anjney Midha 提供了战略指导并塑造了整体框架和方向。
附录
类别子组成详细信息
下图分解了三个主要领域的内部子标签结构:角色扮演、编程和技术。每个领域表现出不同的内部模式,揭示了用户如何在这些类别中与 LLMs 交互。
角色扮演(子标签)。 令牌分配到_角色扮演游戏_场景(58%)和其他创意对话(人物聊天、叙事共同创作等)。
编程(子标签)。 一般编码任务占多数(没有单一特定领域占主导),Web开发、数据科学等份额较小,表明在编程主题中的广泛使用。