2作者: zyoralabs2 个月前原帖
我在过去几周一直在构建 ZSE(Z Server Engine)——一个开源的 LLM 推理引擎,专注于两个尚未完全解决的问题:内存效率和快速冷启动。 我试图解决的问题: 运行一个 32B 模型通常需要约 64 GB 的显存。大多数开发者没有那么多显存。即使量化在内存方面有所帮助,使用 bitsandbytes NF4 的冷启动在首次加载时需要 2 分钟以上,而在温启动时需要 45 到 120 秒——这对无服务器和自动扩展的使用场景造成了困扰。 ZSE 的不同之处在于: 在 19.3 GB 的显存中适配 32B(相比 FP16 减少 70%)——可以在单个 A100-40GB 上运行。 在 5.2 GB 的显存中适配 7B(减少 63%)——可以在消费级 GPU 上运行。 原生 .zse 预量化格式,带有内存映射权重:7B 的冷启动时间为 3.9 秒,32B 为 21.4 秒——相比 bitsandbytes 的 45 秒和 120 秒,vLLM 的冷启动时间约为 30 秒。 所有基准测试均在 Modal A100-80GB 上验证(2026年2月)。 它包含: 与 OpenAI 兼容的 API 服务器(可直接替换)。 交互式命令行界面(zse serve, zse chat, zse convert, zse hardware)。 带有实时 GPU 监控的网页仪表板。 连续批处理(3.45 倍吞吐量)。 通过 llama.cpp 支持 GGUF。 CPU 回退——无需 GPU 也能工作。 速率限制、审计日志、API 密钥认证。 安装: ----- pip install zllm-zse zse serve Qwen/Qwen2.5-7B-Instruct 为了快速冷启动(一次性转换): ----- zse convert Qwen/Qwen2.5-Coder-7B-Instruct -o qwen-7b.zse zse serve qwen-7b.zse # 每次 3.9 秒 冷启动的改进来自于 .zse 格式将预量化权重存储为内存映射的 safetensors——在加载时没有量化步骤,没有权重转换,仅需 mmap + GPU 传输。在 NVMe SSD 上,7B 的冷启动时间可低于 4 秒。在机械硬盘上则会更慢。 所有代码均为真实实现——没有模拟实现。由 Zyora Labs 开发。Apache 2.0 许可。 欢迎就量化方法、.zse 格式设计或内存效率技术提出问题。