小码问答,有问必答!

LangChain 链式调用在并发高的时候内存爆涨,怎么优化异步执行?

用 Python FastAPI + LangChain 搞了个多 Agent 协作系统。单个请求跑得好好的,一旦并发上来(比如 20 QPS),服务器内存直接飙到 90% 然后 OOM。我看了一下,好像是每个 Chain 执行时都加载了一遍 Embedding 模型,而且 LLM 的上下文窗口没清理干净。用了 asyncio 也没见明显好转。这种长链条的 Agent 任务,到底该怎么设计连接池或者模型缓存?是不是得把模型推理部分剥离出来单独部署?

Python

收藏

暂无回答

我要回答