展示HN:FlashTokenizer – 一款速度提升10倍的C++分词器,用于Python4 分•作者: springkim•9 个月前•原帖我用C++构建了一个分词器,并提供了Python绑定,其在处理大输入时的性能比HuggingFace的分词器快10倍。该分词器经过优化,旨在实现最低的内存使用和延迟。<p>基准测试和比较已包含在自述文件中。欢迎反馈或贡献!