用量、余额和计费

每次模型调用都会产生消耗。具体消耗通常和模型、输入长度、输出长度、上下文长度等因素有关。

你应该关注什么

当前 Key 的调用次数。
输入和输出 token 消耗。
余额或额度是否足够。
是否存在异常高频请求。
哪个工具或服务产生了主要消耗。

推荐做法

不同工具使用不同 Key。
生产环境和测试环境拆分 Key。
定期查看用量变化。
对自动化 Agent 设置合理边界，避免循环调用。

常见误解

为什么同一个问题消耗不完全一样？

模型返回长度、上下文长度、工具附加提示词都会影响消耗。

为什么切换模型后消耗变化？

不同模型的计费方式可能不同。切换模型后，即使问题相同，输入处理方式、输出长度和单价也可能变化。

上线前用量保护

上线或让 Agent 自动执行任务前，建议先设置边界：

本地、测试、生产环境使用不同 Key。
Cursor、Claude Code、Codex、后端服务分别使用不同 Key 或至少不同 Key 名称。
如果控制台支持预算、余额或用量提醒，请提前设置；如果暂不支持，安排人工定期检查。
自动化 Agent 要限制最大轮次、最大并发、最大输出长度和运行时间。
批量任务要设置暂停开关，异常时先停任务，再排查。

异常消耗时先做什么

暂停相关 Agent、脚本或后端任务。
在控制台按 Key 名称、模型名和时间范围查看用量。
如果怀疑 Key 泄露，立即停用或删除该 Key。
检查是否存在无限重试、循环调用或过大的上下文输入。
恢复前先用小流量和只读请求验证。

重试和限流

遇到 429 或临时 5xx 时，不要无限重试。建议使用有限次数的指数退避；如果响应提供 Retry-After，优先按它等待。401 和 403 通常不是临时错误，应先修复 Key 或权限。