返回首页

24小时热榜

2作者: teilom大约 6 小时前原帖
我创建了TextPolicy,因为我希望有一种方法可以在不需要集群或云GPU的情况下研究用于文本生成的强化学习。一台MacBook就足够了。 这个工具包很简单: - 实现了GRPO和GSPO算法 - 提供了自定义奖励函数的装饰器接口 - 包含LoRA和QLoRA工具 - 在MLX上运行,因此在Apple Silicon上效率很高 它并不打算用于生产。其目的是学习和实验:理解算法,测试想法,观察奖励设计如何影响行为。 安装方法是通过pip: ``` pip install textpolicy ``` 在README中有一个最小示例。 我对以下内容感兴趣的反馈: - API的清晰度 - 示例的实用性 - 这是否降低了新手进入强化学习的门槛 代码库地址:github.com/teilomillet/textpolicy
2作者: st3v3nmw大约 9 小时前原帖
我之所以开发这个工具,是因为我厌倦了看着Claude Code在庞大的文件中翻阅,只为找到几个函数。Sourcerer让AI代理能够以语义方式搜索代码,并准确获取所需的代码片段,而不是在整个文件上浪费令牌。 它使用tree-sitter来解析你的代码库,并创建一个可搜索的索引。因此,代理可以搜索“用户认证逻辑”,而不是“读取auth.py(538行)”,并仅返回相关的函数。 演示: [https://asciinema.org/a/736638](https://asciinema.org/a/736638) GitHub: [https://github.com/st3v3nmw/sourcerer-mcp](https://github.com/st3v3nmw/sourcerer-mcp)
2作者: JOHN-DAN大约 14 小时前原帖
中国的“防火长城”(GFW)是一个互联网审查和监控系统,阻止用户访问许多外国网站和服务。鉴于其对互联网自由和全球连接的重大影响,我对HN社区对此话题的看法很感兴趣。