Sam Altman 谈 OpenAI Token 用量和 AI 成本

Lisa Ernst · 04.06.2026 · 人工智能 · 8 分钟阅读

Sam Altman 已将 token 用量转变为 2026 年最重要的 AI 业务主题之一。根据最近的报道，OpenAI 最重要的内部 token 用户目前每月处理约 1000 亿个 token，而至少有一位外部用户的数量据称更高。

这很重要，因为 token 不仅仅是技术细节。它们是 AI 工作负载、延迟、基础设施压力和许多 API 账单背后的单位。对于构建 AI 产品的公司来说，了解 token 用量现在与了解云托管、数据库查询或服务器流量同等重要。

Sam Altman 关于 OpenAI token 用量的实际说法

关键数字很简单：据报道，OpenAI 最重要的内部 token 用户每月消耗约 1000 亿个 token。Altman 还将其与早期 OpenAI 时期进行了比较，当时每月约 100,000 个 token 被认为是非常高的用量水平。

这表明 AI 用量已从偶尔的聊天提示转变为持续的开发人员工作流程、编码代理、自动化分析、长上下文窗口和在后台运行的企业系统。

来源: 日本政府 / 内阁官房，CC BY 4.0

这张 2025 年的 Sam Altman 真实照片将 token 用量故事与当前 OpenAI 的企业、基础设施和国际 AI 投资讨论联系起来。

OpenAI 用量中的 token 是什么？

Token 是 AI 模型处理的文本或数据的小单元。在英语中，一个 token 通常包含大约四个字符或约四分之三个单词，但确切数量取决于模型、语言和输入格式。

OpenAI 将用量分为输入 token、输出 token 和缓存 token 等类别。输入 token 来自请求，输出 token 由模型生成，而缓存 token 可以从重复的 prompt 前缀或对话上下文中重复使用。

来源: Wikimedia Commons / OpenAI 标识 2025，公共领域文字标识；可能存在商标限制

OpenAI 标识使文章与讨论背后的公司建立了直接的视觉联系，而不是仅依赖抽象技术图像。

Token 类型	含义	为什么重要
输入 token	发送给模型的 prompt、系统指令、文件、工具和对话上下文。	大型 prompt、长聊天记录和重复文档会迅速增加成本。
输出 token	模型生成的答案。	长响应、推理步骤和代理输出会随着规模的扩大而变得昂贵。
缓存 token	模型基础设施可以重复使用的重复 prompt 部分。	良好的 prompt 结构可以减少延迟并降低重复工作负载的输入成本。

为什么 token 用量增长如此之快

从数千个 token 到数十亿个 token 的飞跃通常不是由一个 prompt 引起的。它发生在 AI 嵌入工作流程中时。编码助手可以读取文件、检查错误、生成补丁、审查更改、调用工具并多次重复该过程。

来源: Wikimedia Commons / ChatGPT 截图，OpenAI

token 用量始于日常用户交互，但大规模情况下，这些对话、文件、工具和后台操作可能导致每月巨大的 token 数量。

企业用例尤其“token 密集”，因为它们通常包含长文档、客户记录、工具调用、检索结果、结构化 JSON、日志和多步代理工作流程。单个用户操作可能会悄悄触发许多模型调用。

token 用量爆炸的常见原因

每次请求都发送长的对话历史。
大型系统 prompt 和重复指令。
自动检查许多文件的 AI 编码代理。
每次回答附加太多文档的检索系统。
冗长的输出，比用户实际需要的更长。
没有严格预算的后台代理持续运行。

推理模型可以改变成本状况

现代 AI 系统越来越多地决定何时快速响应，何时在更困难的任务上花费更多计算。这可以提高质量，但也会使用量跟踪变得更加重要，因为复杂任务可能消耗更多的隐式处理和更多的输出预算。

来源: Wikimedia Commons / GPT-5 更长的思考截图，2025

面向推理的界面使成本问题更加明显：更好的答案可能需要更多的计算，团队需要决定何处 extra token 预算是合理的。

这对于 AI 公司和客户为什么重要

对于模型提供商来说，高 token 用量可能意味着更高的收入，但也意味着更大的基础设施压力。对于客户来说，高 token 用量可能意味着更好的自动化，但也意味着不可预测的账单。token 正在成为一种实用的业务指标，因为它们反映了 AI 系统实际执行了多少工作。

关键在于不要为了本身而最大化 token 用量。更多的 token 并不自动意味着更多的业务价值。更好的问题是，每个 token 是否有助于提高准确性、速度、自动化、收入、支持质量或开发人员的生产力。

来源: Wikimedia Commons / OpenAI 公司结构已修订

成本和 token 的讨论也处在一个更大的公司和投资背景下。OpenAI 的结构、合作伙伴和基础设施战略影响着企业 AI 的定价、扩展和治理方式。

团队应如何衡量 OpenAI token 用量

OpenAI 用户不仅应关注月度总数。他们应按产品领域、用户、模型、工作流程和任务类型细分用量。这样更容易看出哪些自动化是有价值的，哪些工作流程只是在消耗 token。

指标	要回答的问题
每个请求的 token 数	哪些 prompt 不必要地大？
每个用户的 token 数	哪些客户或内部用户驱动了大部分成本？
每个成功任务的 token 数	一个有用的结果实际花费多少？
缓存 token 比率	重复的 prompt 是否结构良好，足以受益于缓存？
输出长度	响应是否比用户需要的长？

Prompt 缓存现在是严肃的成本杠杆

当 prompt 包含重复的静态内容时，prompt 缓存可以减少延迟和输入 token 成本。实际规则很简单：将稳定的指令、示例和工具定义放在 prompt 的开头，然后将可变的用户特定内容放在后面。

减少 token 浪费的实用方法

保持系统 prompt 简短、稳定且可重用。
总结旧的对话历史，而不是永远发送所有内容。
使用检索过滤器，以便只附加相关文档。
为常规任务设置最大输出长度。
为简单的分类、提取或格式化选择更小的模型。
按任务衡量成本，而不仅仅是每月总支出。
任务完成后停止后台代理。

来源: Wikimedia Commons / 服务器基础设施图像

只使用一个基础设施图像，因为它直接解释了 token-成本的联系：每个 token 都必须在某个地方进行处理，这需要真实的计算能力。

这对开发 AI 工具的开发人员意味着什么

开发人员应该像设计计量基础设施一样设计 AI 系统。每个 prompt 都应该有一个理由。每个检索结果都应该是必要的。每个代理循环都应该有一个限制。这对于 SaaS 产品、内部 Copilots 和自动化编码工具尤其重要。

对于构建基于 Web 的 AI 工作流程的团队来说，token 经济学应该从一开始就成为产品设计的一部分。Zerlo 还在 [...] 提供实用的 AI 和 Web 工具， Zerlo tools, 其中，使用效率是构建有用软件的重要组成部分。

常见问题解答：Sam Altman, OpenAI 和 token 用量

Sam Altman 对 OpenAI token 用量说了什么？

据报道，他表示 OpenAI 的第一内部 token 用户每月使用约 1000 亿个 token，而 OpenAI 外部的另一用户使用的更多。

token 和加密货币 token 一样吗？

不。在这种情况下，token 是 AI 模型处理的文本或数据片段。它们用于衡量上下文大小、模型工作负载和 API 计费。

为什么 AI token 要花钱？

每个 token 都必须由模型基础设施处理。更多的 token 通常意味着更多的计算、更多的内存使用、更多的延迟和更高的运营成本。

使用更多 token 是否总是意味着更好的 AI 结果？

不。当上下文相关时，更多的上下文会有帮助，但无关的上下文会使系统变慢、更昂贵，有时甚至不那么专注。

如何减少 OpenAI token 用量？

缩短 prompt，总结历史，限制输出长度，过滤检索结果，尽可能使用更小的模型，并对重复的 prompt 进行结构化以进行缓存。

底线

Sam Altman 关于 token 用量的评论表明，AI 采用已进入新阶段。问题不再仅仅是谁拥有最多的用户或最聪明的模型。问题是谁能在不失去对成本、基础设施和工作流程复杂性的控制的情况下，将大量的 token 用量转化为可靠的价值。