28作者: permute25 天前原帖
据我所知,这是第一个经过正式验证的多边形交集算法实现。<p>在这个项目中与人工智能代理合作的经验随着最近模型的发布发生了很大变化,正如我在自述文件中所描述的那样。Opus 4.8能够一次性提供带有正式证明的算法实现,而之前的模型则需要我分步骤提供证明策略。<p>对正确性的信任完全来自于Lean检查器和对小规格的人工审查,而不是来自大型语言模型(LLM)。<p>还可以查看自述文件中链接的围绕经过验证的核心构建的网络演示:<a href="https:&#x2F;&#x2F;schildep.github.io&#x2F;verified-polygon-intersection&#x2F;" rel="nofollow">https:&#x2F;&#x2F;schildep.github.io&#x2F;verified-polygon-intersection&#x2F;</a>。它支持包括孔洞、自交和重叠边的多边形。
3作者: iliaov25 天前原帖
我最近尝试了像Garry Tan的GStack这样的技能,花了一周时间使用它,意识到它存在一些缺陷(我会单独发帖讨论这个问题)。 我的问题是:我怎么知道一个技能或提示是否好用(例如,GStack的 /office-hours)? 我该如何比较类似的技能(例如,不同的“深度研究”技能)? 识别出故障软件(相对来说)是简单的——它会崩溃,打印错误信息。而故障的技能却不会。那些经过精心打磨、听起来很自信的技能常常误导我,浪费我的时间,甚至让我希望自己根本不使用LLM(大型语言模型)。 AI技能是软件——它们应该配备回归测试。 LLM团队有大量的提示回归测试。LLM包装的SaaS公司也有大量的提示回归测试。但在开源技能方面,SKILL.md看起来合理,但却没有任何测试(例如,撰写时GStack的 /office-hours没有任何测试)。 Garry Tan,如果你听到我的声音——请考虑为你的 /office-hours、/plan-ceo-review、/plan-eng-review等技能提供回归测试。 回归测试应该: 1. 证明技能正确运行 2. 演示正确和错误的用法 3. 证明技能的价值 4. 附带评分标准,以便进行技能基准测试 5. 最后一条是最有价值的,因为它可以让你将类似技能进行对比。 所以我开始自己做这件事。 以下是一个正在进行中的示例:plan-cmo-review,这是一个补充GStack的技能,因为在撰写时GStack缺少市场评审。我并不是一个市场营销专家;分享这个技能的目的是概述它的回归设置。 简要来说,我的探索过程如下: - 我在几个产品上使用了GStack,意识到生成的design_document.md让我失败,主要是在市场营销方面。 - 我借助Claude Opus 4.8手动深入分析了技能的失败,最终找到了正确的解决方案。 - 我请Claude构建了一个plan-cmo-review技能,运行后得到了一个有缺陷的解决方案(类似于GStack的输出)。 - 我给Claude提供了正确的(手动)解决方案进行分析,并将其作为回归测试的基准。 - Claude进行了(盲)回归测试——失败了。我们进行了多次迭代,找到了关键问题:Claude盲目相信我的提示是最终真理。Claude认为GStack知道自己在做什么,而GStack相信我知道自己在做什么。但我实际上是在进行产品/初创公司的研究——根据定义,“研究”就是在你不知道自己在做什么时所做的事情。这个信任链就是导致技能失败的原因。 - 我们解决了信任问题,回归测试通过了。我们又添加了几个,结果也通过了。 - 我让Claude多次运行回归测试——出现了裂缝。Claude对技能进行了迭代。现在它们通过了。 - 这种方法论仍然存在缺陷。我想尝试运行不同的LLM,进行跨模型评估,以及更多的回归测试。 技能链接:github.com/remakeai/plan-cmo-review。更多笔记见:iliaov.substack.com。
1作者: OnuRC25 天前原帖
我理解需要更多资金和计算能力。但是,如果他们如此先进和优秀,为什么他们的私人投资者和股东会让这个数万亿美元的机会溜走呢?私人市场和家族办公室在万亿美元的层面上非常庞大。确实,他们可以在私人融资中筹集资金,直到字母Z,保持私有,就像一些公司能够做到的那样?为什么要出售这项有史以来最伟大商业的所有权? 标准石油从未上市,他们在巅峰时期占据了超过10%的GDP,确实,真正自我进化的人工智能的价值将会高出数倍?甚至没有垄断拆分的风险,因为已经有多个竞争者。 简单来说,他们并不相信当前的估值能证明未来的显著增长。他们需要退出自己的投资,尤其是在当前估值周围存在波动风险的情况下。