返回首页
24小时热榜
我创建了TextPolicy,因为我希望有一种方法可以在不需要集群或云GPU的情况下研究用于文本生成的强化学习。一台MacBook就足够了。
这个工具包很简单:
- 实现了GRPO和GSPO算法
- 提供了自定义奖励函数的装饰器接口
- 包含LoRA和QLoRA工具
- 在MLX上运行,因此在Apple Silicon上效率很高
它并不打算用于生产。其目的是学习和实验:理解算法,测试想法,观察奖励设计如何影响行为。
安装方法是通过pip:
```
pip install textpolicy
```
在README中有一个最小示例。
我对以下内容感兴趣的反馈:
- API的清晰度
- 示例的实用性
- 这是否降低了新手进入强化学习的门槛
代码库地址:github.com/teilomillet/textpolicy
我之所以开发这个工具,是因为我厌倦了看着Claude Code在庞大的文件中翻阅,只为找到几个函数。Sourcerer让AI代理能够以语义方式搜索代码,并准确获取所需的代码片段,而不是在整个文件上浪费令牌。
它使用tree-sitter来解析你的代码库,并创建一个可搜索的索引。因此,代理可以搜索“用户认证逻辑”,而不是“读取auth.py(538行)”,并仅返回相关的函数。
演示: [https://asciinema.org/a/736638](https://asciinema.org/a/736638)
GitHub: [https://github.com/st3v3nmw/sourcerer-mcp](https://github.com/st3v3nmw/sourcerer-mcp)
中国的“防火长城”(GFW)是一个互联网审查和监控系统,阻止用户访问许多外国网站和服务。鉴于其对互联网自由和全球连接的重大影响,我对HN社区对此话题的看法很感兴趣。