小码问答,有问必答!

Token 消耗失控,怎么在网关层实现精细化的限流和计费,同时还能统计每个用户的 Token 用量?

公司内部上了几个 AI 应用,结果月底账单吓死人。有些用户疯狂刷接口,或者构造超长 Context 导致单次请求消耗几万 Token。现在的 Nginx 只能按请求次数限流,没法按 Token 数算。想在 Spring Cloud Gateway 或者 Kong 插件里做个拦截器,实时计算 Prompt + Completion 的 Token 数并扣减配额。有没有现成的方案?自己写个计数器怕精度不够且影响性能。

项目

收藏

暂无回答

我要回答