嗨,HN,我在看到几个类似项目后制作了这个。NBA的API端点是公开的,并且有一个相当强大的Python库(<a href="https://github.com/swar/nba_api" rel="nofollow">https://github.com/swar/nba_api</a>),我参考了它的端点结构来构建一个Go语言的SDK。我使用了BubbleTea和LipGloss来进行样式设计。测试实时端点有点棘手,但我用这个观看了周五的决赛,效果相当不错。<p>playball - <a href="https://news.ycombinator.com/item?id=45451577">https://news.ycombinator.com/item?id=45451577</a><p>faceoff - <a href="https://news.ycombinator.com/item?id=47826104">https://news.ycombinator.com/item?id=47826104</a>
返回首页
最新
终于做出了我一直想要的东西,使用我们构建的模型。<p>• 最先进的全方位嵌入模型,完全本地化,能够索引文本、PDF、图像、音频和视频
• Swift原生应用界面 + mlx-swift-transformer核心。不使用Python。
• 在 M3 Pro 18G / M3 Ultra 512G / M4 Pro 48G 上测试,均运行良好。
• HTTP 服务器向本地代理(如 OpenClaw 和 Hermes)提供搜索功能
− 即使在最新的 M3 Ultra 上,索引速度仍然感觉较慢,取决于文件类型,速度范围从 10K tps 到 300 tps
− 索引时风扇噪音很大,功耗高
− 搜索几乎是即时的。多模态相关性有时值得商榷,但核心理念是召回(智能LLM会对结果进行处理以得到最终答案),所以也许这样也不错。
简而言之:我训练了一个分类器,用于将请求路由到最便宜的模型和推理深度。结合额外的自动化令牌效率技术,这使得在相同支出下使用量提高了三倍。对于任何想自己尝试的人:<a href="https://nerfguard.com" rel="nofollow">https://nerfguard.com</a>
最近,我和一些团队成员从Claude Code切换到了Codex。我们仍在这两种工具之间切换,但Codex的速度和可控性以及性能提升让人难以忽视。一个缺点是,按令牌计费的费用很快就开始生效。这种情况普遍存在,但我们在Codex中感受得尤为明显。我们是一家初创公司,团队成员全天候工作,热衷于构建产品——因此,我们的<i>每日</i>账单显得格外引人注目。
幸运的是,我们正在追求一个重要的使命,速度比边际令牌支出更为重要。不过,这让我们思考,尽管我们的产品在减少令牌支出和显著加快代理工作流程方面有着意想不到的效果,但我们却在所有类型的内部编码任务中使用这些顶级模型,而没有进行任何优化。这种浪费显得相当荒谬——最明显的罪魁祸首是,我们似乎在每个任务上都使用了最高智能模型和最大推理深度,即使这些任务显然并不需要如此。作为一家花费大量时间在缓存智能上的公司,我们也很容易看到还有许多其他的低悬果实可以摘取。
因此,在最近的一个周末,我迅速构建了一个工具来优化我们的使用。它的核心是一个<i>非常快速</i>的分类器,可以将请求分类到完成任务所需的最低智能水平,并在此基础上进行一些不错的令牌优化。结果是,令牌支出大幅降低,但质量大致相同。对我们来说,更令人兴奋的是,合理打包的智能和推理水平使我们的速度也显著提升。这并非微不足道。
我们观察到,每个人每天节省了高达三倍的时间,这些时间本来是用来等待工具的响应和编码代理的反馈。
对我们来说,这意味着工程效率的提升,以及在相同支出下显著更高的使用量。这也意味着在被限制之前可以使用更多的资源。
当我告诉朋友们这件事时,他们也想开始使用它,以最大化他们从编码代理计划中获得的使用量。现在,许多最前沿的人工智能公司的工程师都在使用这个工具来优化他们的令牌利用率。不仅是为了节省资金,更是为了最大化产出。事实证明,避免被Claude限制的最佳方法是有选择性地主动限制自己。我们决定将其发布给其他开发者社区使用。现在,您可以为自己启用Nerfguard,今天就开始获得更多的使用量。