1作者: simianwords7 天前原帖
我意识到,如果不允许推理标记,模型的表现非常糟糕。它无法进行简单的算术运算或逻辑推理,并且会出现一些幻觉。 但是,通过允许模型思考一会儿再回答,结果会好得多,可信度也更高。 这显示了一个干净的强化学习环境,或者只是一个良好的数据集。在这个过程中,你可以对模型进行两次提示——一次是不允许思考,另一次是允许思考。如果不允许思考的结果与允许思考得到的答案相矛盾,就对其进行惩罚。
1作者: BleedingXiko7 天前原帖
RAGOT 是从我正在构建的一个更大项目中提取的前端运行时(一个实时、状态密集的媒体服务器)。<p>我最终编写了自己的运行时,因为现有框架在生命周期、状态拥有权和长时间运行的用户界面处理上对于这个用例并不够清晰。<p>它专注于直接的 DOM 拥有权、明确的生命周期控制和可预测的清理,而不是虚拟 DOM。<p>我将其开源,希望看看这种方法是否能引起其他构建类似系统的人的共鸣。<p>在代码库中有一个互动实验室,但这里有一个直接链接: <a href="https:&#x2F;&#x2F;bleedingxiko.github.io&#x2F;RAGOT&#x2F;lab&#x2F;" rel="nofollow">https:&#x2F;&#x2F;bleedingxiko.github.io&#x2F;RAGOT&#x2F;lab&#x2F;</a>
2作者: brynary7 天前原帖
嗨——我创建Fabro是为了让我摆脱对一系列在REPL(读取-评估-提示循环)中运行的Claude Code标签的监督。REPL非常适合探索,但一旦我知道我需要什么,我希望能够离开,让代理完成任务。 (在构建Fabro之前,我寻找过现成的解决方案,但没有找到任何开源、没有炒作且功能齐全的工具。) Fabro帮助经验丰富的工程师向“黑暗”软件工厂演进,在那里,平均脱离工作的时间会增加。虽然可以轻松地将Ralph脚本应用于Claude,但随着运行时间的增加,高质量输出的机会会下降。 Fabro增加了最后一公里的保护措施,使其真正有效:将代理的确定性工作流程、像代码检查工具和测试套件这样的命令,与战略性的人为引导相结合。(类似于Stripe的Minions。) Fabro是多模型的,便于将Claude、Gemini和GPT结合在一起进行集成评审——或者将编码委托给像Kimi这样更快、更便宜的模型。 软件工厂在与云虚拟机(如Daytona)结合使用时效果最佳,这样您可以获得无限可扩展、安全的沙盒,能够24/7运行,并根据需要通过SSH、VS Code和预览链接访问。今天设置这一切可能有点麻烦,而Fabro试图让这一过程尽可能简单,就像Docker一样。 目前与Fabro最接近的类比可能是Factory.ai Droids。然而,我认为工程师拥有自己的工具链是至关重要的,因此Fabro是开源的(MIT许可证),您可以随时分叉并自定义它。 该项目非常活跃,我非常欢迎任何反馈或功能请求。今天我会在这里回答问题。 (大约一周前发布了这个,希望能引发一些讨论。) - Bryan
3作者: inerte7 天前原帖
我一直在开发一种新的编程语言,用于人工智能代理。我非常希望能听到你们对使编程语言适合人工智能代理的看法,尤其是在语法、编译器和工具方面,这些都可以帮助人工智能代理编写代码。 什么使得Sigil适合编写代理代码? 我尽可能地将约定转化为编译器规则。编译器拥有规范的打印器,每个抽象语法树(AST)都有一个被接受的文本表示。对于几乎每个语法特性,我都尽量节省标记。 顺序和命名约定是强制执行的。再也没有“我认为这个参数很重要,所以它应该放在第一位。”大多数内容都是按字母顺序排列的。声明被分类并按字母顺序排列;参数、效果和记录字段也都是按字母顺序排列。类型使用大驼峰命名法(UpperCamelCase),其他所有内容使用小驼峰命名法(lowerCamelCase),包括文件名。 没有空值(null)。没有未定义(undefined)。 双向类型检查。 没有变量遮蔽(shadowing)。 丰富的标准库(仍在进行中)。 `sigil debug`支持重放、单步调试、监视和断点。 `sigil inspect`允许编码代理直接查询编译器,包括证明表面。 支持求解器的细化和合约。不同的语言已经选择了不同的数值表面:字节(byte)、短整型(short)、小整型(smallint)、无符号整数等。Sigil更进一步:领域约束也可以定义类型。`where`允许命名类型携带谓词,而`requires`和`ensures`则允许函数在调用边界之间携带证明义务。 以下是来自roguelite的一个人为例子: ```sigil t InventoryCount=Int where value≥0 λspendArrow(arrows:InventoryCount)=>InventoryCount requires arrows>0 ensures result≥0 =arrows-1 ``` 在底层,这由Z3支持: [https://github.com/z3prover/z3](https://github.com/z3prover/z3) 但表面保持普通的Sigil语法。没有证明脚本,也没有面向用户的SMT语言。 没有导入,仅限根引用。在某些语言中,你可以导入代码并发生名称冲突,因此有许多方法来指定导入。Sigil通过仅使用根引用消除了所有这些。我认为这减少了代理的变动,因为当模型看到一行代码时,它不必去寻找导入语句。 服务依赖在`src/topology.lib.sigil`中声明,环境绑定则在`config/<env>.lib.sigil`中。 该语言有特殊的测试语法,测试是并行运行的。每个项目的`src/*.lib.sigil`函数必须经过测试,如果一个函数可以返回多个情况,测试应涵盖所有情况。“世界”是Sigil的效果模型。这就是模拟的工作原理:用一个效果替换另一个效果,并进行断言,而不需要实际调用外部系统。 编译器工具链是用Rust编写的,Sigil输出为TypeScript,并与Node.js有外部函数接口(Foreign Function Interface)。可以在这里查看一些小项目 [https://inerte.github.io/sigil/projects/](https://inerte.github.io/sigil/projects/) - Flashcards是了解Sigil特性的有用工具 [https://inerte.github.io/sigil/projects/sigil-flashcards/demo/](https://inerte.github.io/sigil/projects/sigil-flashcards/demo/)。 警告:我没有为编译器工具链编写一行代码。所有代码都是通过Claude Code和Codex生成的。我在运行这两个工具时,权限是危险地跳过的。这篇实际的帖子是我手动撰写的每一个字。 此外,还有一个用Sigil编写的玩具roguelite。它仍在进行中,但证明了Sigil可以支持非平凡的项目代码。你可以通过`pnpm sigil:run:roguelike`进行体验。 仓库:[https://github.com/inerte/sigil](https://github.com/inerte/sigil) 网站:[https://inerte.github.io/sigil/](https://inerte.github.io/sigil/) 我也希望你们能找到更多的方法来进一步限制大型语言模型(LLM)/用户程序。在Sigil中,应该只有一种方法来完成任何事情。
1作者: joshkurz7 天前原帖
一个爸爸笑话网站,您可以对随机的爸爸笑话进行评分,评分范围为1到5个呻吟声。笑话来源于四个不同的地方,所有来源均已注明,且经过分类,并按投票排名。<p>帮助我创建世界上最好的爸爸笑话数据库!