28作者: permute25 天前原帖
据我所知,这是第一个经过正式验证的多边形交集算法实现。<p>在这个项目中与人工智能代理合作的经验随着最近模型的发布发生了很大变化,正如我在自述文件中所描述的那样。Opus 4.8能够一次性提供带有正式证明的算法实现,而之前的模型则需要我分步骤提供证明策略。<p>对正确性的信任完全来自于Lean检查器和对小规格的人工审查,而不是来自大型语言模型(LLM)。<p>还可以查看自述文件中链接的围绕经过验证的核心构建的网络演示:<a href="https:&#x2F;&#x2F;schildep.github.io&#x2F;verified-polygon-intersection&#x2F;" rel="nofollow">https:&#x2F;&#x2F;schildep.github.io&#x2F;verified-polygon-intersection&#x2F;</a>。它支持包括孔洞、自交和重叠边的多边形。
3作者: iliaov25 天前原帖
我最近尝试了像Garry Tan的GStack这样的技能,花了一周时间使用它,意识到它存在一些缺陷(我会单独发帖讨论这个问题)。 我的问题是:我怎么知道一个技能或提示是否好用(例如,GStack的 /office-hours)? 我该如何比较类似的技能(例如,不同的“深度研究”技能)? 识别出故障软件(相对来说)是简单的——它会崩溃,打印错误信息。而故障的技能却不会。那些经过精心打磨、听起来很自信的技能常常误导我,浪费我的时间,甚至让我希望自己根本不使用LLM(大型语言模型)。 AI技能是软件——它们应该配备回归测试。 LLM团队有大量的提示回归测试。LLM包装的SaaS公司也有大量的提示回归测试。但在开源技能方面,SKILL.md看起来合理,但却没有任何测试(例如,撰写时GStack的 /office-hours没有任何测试)。 Garry Tan,如果你听到我的声音——请考虑为你的 /office-hours、/plan-ceo-review、/plan-eng-review等技能提供回归测试。 回归测试应该: 1. 证明技能正确运行 2. 演示正确和错误的用法 3. 证明技能的价值 4. 附带评分标准,以便进行技能基准测试 5. 最后一条是最有价值的,因为它可以让你将类似技能进行对比。 所以我开始自己做这件事。 以下是一个正在进行中的示例:plan-cmo-review,这是一个补充GStack的技能,因为在撰写时GStack缺少市场评审。我并不是一个市场营销专家;分享这个技能的目的是概述它的回归设置。 简要来说,我的探索过程如下: - 我在几个产品上使用了GStack,意识到生成的design_document.md让我失败,主要是在市场营销方面。 - 我借助Claude Opus 4.8手动深入分析了技能的失败,最终找到了正确的解决方案。 - 我请Claude构建了一个plan-cmo-review技能,运行后得到了一个有缺陷的解决方案(类似于GStack的输出)。 - 我给Claude提供了正确的(手动)解决方案进行分析,并将其作为回归测试的基准。 - Claude进行了(盲)回归测试——失败了。我们进行了多次迭代,找到了关键问题:Claude盲目相信我的提示是最终真理。Claude认为GStack知道自己在做什么,而GStack相信我知道自己在做什么。但我实际上是在进行产品/初创公司的研究——根据定义,“研究”就是在你不知道自己在做什么时所做的事情。这个信任链就是导致技能失败的原因。 - 我们解决了信任问题,回归测试通过了。我们又添加了几个,结果也通过了。 - 我让Claude多次运行回归测试——出现了裂缝。Claude对技能进行了迭代。现在它们通过了。 - 这种方法论仍然存在缺陷。我想尝试运行不同的LLM,进行跨模型评估,以及更多的回归测试。 技能链接:github.com/remakeai/plan-cmo-review。更多笔记见:iliaov.substack.com。
1作者: OnuRC25 天前原帖
我理解需要更多资金和计算能力。但是,如果他们如此先进和优秀,为什么他们的私人投资者和股东会让这个数万亿美元的机会溜走呢?私人市场和家族办公室在万亿美元的层面上非常庞大。确实,他们可以在私人融资中筹集资金,直到字母Z,保持私有,就像一些公司能够做到的那样?为什么要出售这项有史以来最伟大商业的所有权? 标准石油从未上市,他们在巅峰时期占据了超过10%的GDP,确实,真正自我进化的人工智能的价值将会高出数倍?甚至没有垄断拆分的风险,因为已经有多个竞争者。 简单来说,他们并不相信当前的估值能证明未来的显著增长。他们需要退出自己的投资,尤其是在当前估值周围存在波动风险的情况下。
2作者: wqtz25 天前原帖
我刚刚卸载了 Pi-hole。这让我生活中有些不如意。 我有一件非常紧急且繁琐的事情要处理,涉及到预约。我已经尝试了几个月,每天多次寻找可用的时间段,结果却一直没有成功,感到非常沮丧和绝望。 这是一种高度官僚化、令人烦恼的流程。客服团队糟糕透顶,我完全陷入了困境。 在尝试了各种浏览器组合、关闭扩展程序和我能想到的设备后,我最终错过了截止日期。昨天我随便用手机查看了一下网站,发现它竟然可以正常工作了。虽然这对我已经没有帮助,但确实有可用的预约时间。 我抓狂地想弄清楚发生了什么。 显然,这个网站依赖一些追踪器,而这些追踪器的数据被用来在表单请求中发送访问者的位置。这绝对是糟糕的工程设计。但无论原因是什么,我始终没弄明白,因为我禁用了浏览器扩展,切换了浏览器,测试了不同的设备,但我一直使用的是 Pi-hole 的 DNS。 Pi-hole 的整个架构就是“设置好就忘”,而我完全忘了它的存在。 现代网络依赖于无数干扰你隐私的系统。你越是注重隐私,最终就越会伤害到自己的上网体验。有些人会屏蔽 JavaScript,屏蔽一切,或者专门使用 Tor。我有时觉得这些人为了安全而过得更加痛苦。 我认为使用广告拦截器扩展就足够了。在隐私问题上,我们已经无路可退。现代网络的框架基本上是:同意或退出。几乎没有其他选择的余地。 也许我很傻,也许我应该早点意识到这一点。但我认为,成为主流互联网的一部分,可能会让你的体验比那些高度关注隐私的人更加顺畅。
6作者: utibeumanah25 天前原帖
嘿,HN 我使用ECS已经有一段时间了,每次都需要登录控制台让我感到很烦恼。 我使用Kubernetes的Lens,但找不到ECS的类似工具,所以我自己做了一个! 这个项目是开源的,欢迎大家查看: [https://github.com/utibeabasi6/mercek](https://github.com/utibeabasi6/mercek)