返回首页

24小时热榜

28作者: jamesxv7大约 13 小时前原帖
首先,这纯粹是我个人的学习项目,旨在结合我三种热情:摄影、软件工程以及家庭记忆。我拥有大量的家庭照片,想要构建一个互动体验,以便像谷歌或苹果的照片功能那样探索它们。 我的目标是创建一个具有智能搜索功能的系统,其中一个最重要的要求是它必须完全运行在我的本地硬件上。隐私至关重要,但主要驱动力是自己构建它的挑战和乐趣(显然也是一种学习)。 我所追求的关键功能包括: - 自动识别和标记家庭成员(本地人脸识别)。 - 为每张照片生成描述性标题。 - 自然语言搜索(例如,“给我看看去年夏天我们在卢基略海滩的照片”)。 我已经向人工智能工具请求了一个高层次的项目计划,它们提供了一个可靠的蓝图(例如,使用LLaVA的Ollama,一个像ChromaDB这样的向量数据库,你知道的)。现在,我对现实世界的人类体验非常感兴趣。我在寻找建议、学习故事,以及那些只有在构建类似项目时才能获得的小细节。 对于2025年这样的项目,您会推荐哪些工具、模型和最佳实践?具体来说,我对将结构化元数据(EXIF)、人脸识别数据和语义向量搜索结合成一个统一的应用程序感到好奇。 任何建议都将不胜感激。谢谢!
17作者: matthewolfe大约 19 小时前原帖
TokenDagger 是 OpenAI 的 Tiktoken(Llama 3、Mistral、GPT-3.* 等背后的分词器)的即插即用替代品。它使用 C++ 17 编写,并配有轻量级的 Python 绑定,保持完全相同的 BPE 词汇/特殊标记规则,专注于原始速度。 我正在通过从基本原理重新实现整个堆栈来学习大型语言模型的内部原理。对 TikToken 的 Python/Rust 实现进行的性能分析显示,很多时间都花在了正则表达式匹配上。我的性能提升主要来源于:a) 使用更快的 JIT 编译正则表达式引擎;b) 简化算法,完全不使用正则表达式匹配特殊标记。 基准测试代码已包含在内。显著的结果显示: - 在单线程上,代码样本的分词速度提高了 4 倍。 - 在对 1GB 自然语言文本文件进行测试时,吞吐量提高了 2-3 倍。