想做个隐私优先的功能,打算用 web-llm 在用户浏览器里直接跑一个量化后的 7B 模型,避免数据出域。但在实际测试中,低端安卓机直接卡死,Chrome 标签页崩溃,显存占用爆炸。除了让用户换手机,有没有什么降级策略?比如检测不到 WebGL 支持就自动切回云端 API?或者有没有更轻量的模型格式(比如 ONNX Runtime Web)推荐,能在保证基本智商的前提下把体积压到 500M 以内?
想做个隐私优先的功能,打算用 web-llm 在用户浏览器里直接跑一个量化后的 7B 模型,避免数据出域。但在实际测试中,低端安卓机直接卡死,Chrome 标签页崩溃,显存占用爆炸。除了让用户换手机,有没有什么降级策略?比如检测不到 WebGL 支持就自动切回云端 API?或者有没有更轻量的模型格式(比如 ONNX Runtime Web)推荐,能在保证基本智商的前提下把体积压到 500M 以内?
暂无回答
我要回答