1作者: ativzzz2 天前原帖
我想尝试多代理工作流程——有时候我能找到一个良好的流程,让一个代理在我知道需要做什么但需要大量代码的工作中相对独立地运作。它运行一段时间后,我需要在浏览器中验证它是否真的有效,然后从那里进行迭代和调试。或者我有三种不同的方法想要尝试,我可以让人工智能只执行其中一种,看看它是否与前端良好配合,如果不行可以迅速回滚。 我希望能够在一个代理运行时同时处理另一个代理,否则我就只能坐在那里等待。 问题是我们的环境并不允许我们的应用程序同时运行多个实例——我们的前端很重,占用大量内存,因此即使我们找到了运行多个后端的方法,内存也会成为一个问题。 似乎很多多代理工作流程使用命令行工具——这很有道理。有没有人成功地在网页上实现过?也许还有一些浏览器自动化的方式?
1作者: awalGarg2 天前原帖
大家好!我想分享一个我思考了很久的概念验证。想象一下,一种新的电子表格形式,其主要数据结构不是一个固定的网格,而是一个自由形式的类似JSON的结构(当然也支持一流的表格功能)。我在这里链接了一个演示,它使用了vi风格的快捷键进行交互,当然,这个想法并不限于这种交互模式。 地址最终会变成JSON路径。由于目前只是一个概念验证,布局是固定的,但理想情况下,你应该能对其有更多的控制,类似于画布。 表达式可以通过它们基于JSON的地址引用其他单元格,甚至可以相对于它们当前的地址。概念验证中尚未支持表达式,但示例中的一个表格确实展示了一个动态列。由于你可以任意嵌套数组/哈希,因此可以保留表格来表示同质记录的数组,并且某些列可以基于其他列进行动态计算(或具有默认的动态计算)。表达式实际上是JavaScript函数,但它们可以是任何与JSON类型兼容的东西。 这离完成还有很远。我只是想尽早分享这个想法,我认为你们中的许多人会觉得这个想法本身很有趣。 为什么呢?我认为电子表格很棒,但由于其刚性,它们未被充分利用。它们不适合版本控制,作为权威数据源,支持API等。我也不知道这是否是正确的方向。我很乐意听听你们的想法! 代码是我100%手动编写的(除了CSS背景是我从Stack Overflow复制的)。如果有足够的合作兴趣,我很乐意将源代码放到codeberg上。
1作者: nsomani2 天前原帖
嗨,HN,似乎大家对之前GPT 5.2 Pro解决的Erdos问题表现出了广泛的兴趣:<a href="https://news.ycombinator.com/item?id=46664631">https://news.ycombinator.com/item?id=46664631</a> 我招募了一支聪明的本科生团队,构建了一个数据集,记录了ChatGPT对每个开放Erdos问题的回答,并验证了输出结果。 他们发现: - 3个问题有新的证明(虽然在2个案例中,发现了历史上的部分结果,可以扩展以解决同样的问题) - 4个问题中,5.2 Pro或Deep Research在之前的文献中找到了未被记录的确切解决方案 - 3个问题中,5.2 Pro或Deep Research能够加强文献中的先前结果 - 3个问题中发现了问题陈述中的错别字 最常见的失败案例是,5.2 Pro解决了问题的表述,但专业数学家理解到该问题存在隐含约束。例如,问题可能说是整数,但实际上他们只指正整数。 欢迎随时询问有关数据集的任何问题!