公司内部上了几个 AI 应用,结果月底账单吓死人。有些用户疯狂刷接口,或者构造超长 Context 导致单次请求消耗几万 Token。现在的 Nginx 只能按请求次数限流,没法按 Token 数算。想在 Spring Cloud Gateway 或者 Kong 插件里做个拦截器,实时计算 Prompt + Completion 的 Token 数并扣减配额。有没有现成的方案?自己写个计数器怕精度不够且影响性能。
公司内部上了几个 AI 应用,结果月底账单吓死人。有些用户疯狂刷接口,或者构造超长 Context 导致单次请求消耗几万 Token。现在的 Nginx 只能按请求次数限流,没法按 Token 数算。想在 Spring Cloud Gateway 或者 Kong 插件里做个拦截器,实时计算 Prompt + Completion 的 Token 数并扣减配额。有没有现成的方案?自己写个计数器怕精度不够且影响性能。
暂无回答
我要回答