用 Python FastAPI + LangChain 搞了个多 Agent 协作系统。单个请求跑得好好的,一旦并发上来(比如 20 QPS),服务器内存直接飙到 90% 然后 OOM。我看了一下,好像是每个 Chain 执行时都加载了一遍 Embedding 模型,而且 LLM 的上下文窗口没清理干净。用了 asyncio 也没见明显好转。这种长链条的 Agent 任务,到底该怎么设计连接池或者模型缓存?是不是得把模型推理部分剥离出来单独部署?
用 Python FastAPI + LangChain 搞了个多 Agent 协作系统。单个请求跑得好好的,一旦并发上来(比如 20 QPS),服务器内存直接飙到 90% 然后 OOM。我看了一下,好像是每个 Chain 执行时都加载了一遍 Embedding 模型,而且 LLM 的上下文窗口没清理干净。用了 asyncio 也没见明显好转。这种长链条的 Agent 任务,到底该怎么设计连接池或者模型缓存?是不是得把模型推理部分剥离出来单独部署?
暂无回答
我要回答