Codex 用户集体暴怒！Token疯狂蒸发的 5 个原因终于找到了

发布时间：2026/7/4 19:42:51

最近不少朋友都有一个感受就是codex怎么消耗变快了。之前是100刀的Pro会员随便用根本用不完额度那个时候有翻倍。后续发现100刀的Pro开始不够用了甚至到最后200刀的刀Pro也开始不够用了。就在2026 年 6 月底开发者社区集体不干了开始控诉codex的消耗异常。大量用户报告 Codex 的 token 消耗出现严重异常有人一条 prompt 下去5 小时额度直接归零有人花 200 美元买了 Pro 20x结果三四个小时就用完了临时额度。大批用户在社交媒体上集体 Codex 产品负责人 Tibo Sottiaux 讨要说法。几天后Tibo 终于做出正式回应承认系统存在多个叠加问题并连续做了多轮全局额度重置。而在 6 月 30 日这次“额度异常”的正式调查结果终于出炉Tibo 此前的推测居然也没中。按照 Tibo 的报告这次并不是某一个单点 bug 把额度系统干崩了而是多个问题在特定用户场景下叠加放大换句话说是“亿点点问题在一起爆了”。简单来看主要问题集中在几个方面自动代码审查触发频率过高任务拆解机制异常导致触发更多子任务失败 prompt 在后台发生重复重试用量统计与分类显示出现偏差目前OpenAI 已经回滚了相关改动并修复了重复生成、重复调度和异常重试的问题。事实上早在 2025 年底 Codex 出现计费异常时团队就采取过一次激进修复——直接重写了计费与使用追踪系统的底层逻辑。但即便如此Codex 的额度问题依然没有彻底消失。额度故障一波接一波官方重置也一轮接一轮。出于对 Codex 疯狂重置的好奇我们认真研究了这次的故障报告也翻了翻 Codex 过去和各种额度 bug 斗智斗勇的历史记录。最后我们扒出了五条 Codex 额度疯狂燃烧的原因。原因一Codex的回答本身就很耗Token当Codex发出去 prompt的时候 Codex 内部可能被拆解成了好几个环节理解意图、扫描项目结构、读取相关文件、生成代码、自动审查代码质量、验证修改是否正确……每一个环节都在消耗 token。尤其是 auto-review自动代码审查这个功能在某些版本中它的触发逻辑被调得过于激进。你根本没有主动要求它进行审查但 Codex 已经自作主张地在后台启动了分析流程。原因二Cloud 任务和本地任务共用一个额度2025 年底之前Codex 的云端任务Cloud Task和本地 CLI 任务各有各的额度池——互不干扰。但后来OpenAI 悄悄把两者合并成了一个共享额度池没有公告没有更新日志。问题在于云端任务和本地任务的 token 消耗根本不在一个量级。每个云端任务启动时会拉起一个独立的沙箱容器光是加载环境上下文就可能吃掉 15 万到 30 万 token。而本地一个轻量级 prompt 可能只消耗几千 token。原因三失败的任务不退钱这大概是整个 Codex 额度体系中最让人无语的设计。当一个 Codex 任务挂起、超时或者执行失败的时候系统不会退还已经消耗的 token。其次就是Codex 的重试机制在某些情况下过于激进。一个任务失败了AI 不会停下来而是会自动尝试启动重试、分叉出新的子任务、甚至在后台重复调度已经失败的流程。在 6 月底那次重大故障中Tibo 明确提到这种失败 prompt 在后台重复重试是导致额度异常消耗的重要原因之一。原因四两套计时系统不对Codex 的额度系统有两层限制一个是 5 小时滚动窗口限制一个是每周总额度限制。理论上这两个窗口应该按比例联动保持一致的消耗节奏。但现实是它们的计算逻辑并不同步。社区发现在 CLI v0.40.0 版本中5 小时窗口的额度恢复 2% 时每周额度只恢复 1%。这意味着如果你在短时间内集中使用 Codex 完成一个大型重构任务5 小时额度可能还剩一些空间但你的周额度已经被不成比例地消耗殆尽了。OpenAI 后来承认这是一个 bug也给受影响的用户发放了补偿。原因五Codex 在偷偷加班除了上面那些执行层面的问题还有一个容易被忽视的后台消耗大户记忆预览功能Memory Preview。这个功能会持续抓取你的屏幕上下文用来补全AI 的短期记忆让连续对话更自然。听起来确实很好用但问题是它会一直在后台运行持续消耗 token。也就是说哪怕你放下电脑去吃饭、去遛弯、去睡觉只要 Codex 开着这个功能可能就在后台默默刷新你的上下文信息。这个可以手动关掉在设置的「个性化 → 记忆」里把它关闭就行。如何节约Codex Token目前也有用户在社区分享了许多自己节省Token的技巧大家可以参考一下。以下是综合社区经验和技术分析后整理出来的几个实用方法精简你的 AGENTS.md 文件。这是最容易被忽视但效果最显著的一招。很多人的 AGENTS.md 文件随着项目迭代已经膨胀到了几千行而每次 prompt 都会把这个文件完整加载进上下文。有开发者实测精简 AGENTS.md 后 token 消耗降低了 30%-40%。缩小工作区范围。如果你的项目是一个大型 monorepo不要在根目录打开 Codex。把工作区限定到你当前实际操作的子目录下可以显著减少上下文加载的 token 开销。日常任务用小模型。不是所有任务都需要上最强的 GPT-5.5。简单的代码修改、格式调整、配置文件编辑这些活儿用 codex-mini 就够了token 消耗低得多。把重型模型留给真正需要深度推理的复杂任务。关掉不需要的 MCP 服务。每个 MCP server 启动时都会往上下文里加载工具 schema配的越多每次会话的基础开销就越大。只留当前任务真正用得上的。养成查余额的习惯。在 CLI 里跑一下/status在大型任务前确认自己还剩多少额度。尤其是预估会超过 10 万 token 输入的任务先确认余量再动手。好了以上就是这篇文章的所有内容如果觉得文章不错的话记得一键三连支持

Codex 用户集体暴怒！Token疯狂蒸发的 5 个原因终于找到了

相关新闻

STM32F072RB与SLO2016构建工业隔离通信系统

python___模块

人工智能与机器学习实战：从入门到部署全流程指南

FFmpeg-Android完全指南：在Android项目中轻松集成音视频处理能力

智能绕过限制：永久免费使用Cursor AI编程助手的完整方案

Mhook未来展望：Windows 11与现代Hook技术趋势的终极指南

Each实战：构建倒计时、轮询、延迟执行等常见定时功能的完整教程

毕设分享深度学习yolo藻类细胞检测识别(科研辅助系统)（源码+论文）

为什么lighterhtml比React更快？揭秘DOM操作性能优化技巧

Axure RP中文界面终极解决方案：3分钟告别英文困扰

STM32F745VG与MC6470 IMU的高性能姿态控制系统设计

本地部署SAM Audio音频语义分割模型完整指南

Codex 用户集体暴怒！Token疯狂蒸发的 5 个原因终于找到了

相关新闻

STM32F072RB与SLO2016构建工业隔离通信系统

python___模块

人工智能与机器学习实战：从入门到部署全流程指南

FFmpeg-Android完全指南：在Android项目中轻松集成音视频处理能力

智能绕过限制：永久免费使用Cursor AI编程助手的完整方案

Mhook未来展望：Windows 11与现代Hook技术趋势的终极指南

Each实战：构建倒计时、轮询、延迟执行等常见定时功能的完整教程

毕设分享 深度学习yolo藻类细胞检测识别(科研辅助系统)（源码+论文）

为什么lighterhtml比React更快？揭秘DOM操作性能优化技巧

Axure RP中文界面终极解决方案：3分钟告别英文困扰

STM32F745VG与MC6470 IMU的高性能姿态控制系统设计

本地部署SAM Audio音频语义分割模型完整指南

毕设分享深度学习yolo藻类细胞检测识别(科研辅助系统)（源码+论文）