1作者: xiphias226 天前原帖
大家好,我想在本地进行LLM推理,但大多数框架都非常复杂。虽然有很多简单的GPT-2实现,但GPT-2毕竟是一个较旧的模型。 我查看了transformers的代码库,并尽可能简化了Gemma3的Python实现,同时确保性能不受影响。我相信这能很好地帮助理解如何实现Gemma3模型推理(我计划在未来在同一个仓库中添加其他模型),并且可以根据需要进行改进。 我希望未来能够添加量化和GGUF mmap支持,可能还会加快分词器的加载速度,并添加其他表现良好的新模型,同时保持代码简洁、性能优越,并尽可能减少重依赖。