主题
用量、余额和计费
每次模型调用都会产生消耗。具体消耗通常和模型、输入长度、输出长度、上下文长度等因素有关。
你应该关注什么
- 当前 Key 的调用次数。
- 输入和输出 token 消耗。
- 余额或额度是否足够。
- 是否存在异常高频请求。
- 哪个工具或服务产生了主要消耗。
推荐做法
- 不同工具使用不同 Key。
- 生产环境和测试环境拆分 Key。
- 定期查看用量变化。
- 对自动化 Agent 设置合理边界,避免循环调用。
常见误解
为什么同一个问题消耗不完全一样?
模型返回长度、上下文长度、工具附加提示词都会影响消耗。
为什么切换模型后消耗变化?
不同模型的计费方式可能不同。切换模型后,即使问题相同,输入处理方式、输出长度和单价也可能变化。
上线前用量保护
上线或让 Agent 自动执行任务前,建议先设置边界:
- 本地、测试、生产环境使用不同 Key。
- Cursor、Claude Code、Codex、后端服务分别使用不同 Key 或至少不同 Key 名称。
- 如果控制台支持预算、余额或用量提醒,请提前设置;如果暂不支持,安排人工定期检查。
- 自动化 Agent 要限制最大轮次、最大并发、最大输出长度和运行时间。
- 批量任务要设置暂停开关,异常时先停任务,再排查。
异常消耗时先做什么
- 暂停相关 Agent、脚本或后端任务。
- 在控制台按 Key 名称、模型名和时间范围查看用量。
- 如果怀疑 Key 泄露,立即停用或删除该 Key。
- 检查是否存在无限重试、循环调用或过大的上下文输入。
- 恢复前先用小流量和只读请求验证。
重试和限流
遇到 429 或临时 5xx 时,不要无限重试。建议使用有限次数的指数退避;如果响应提供 Retry-After,优先按它等待。401 和 403 通常不是临时错误,应先修复 Key 或权限。