最新

谷歌发布了Fitbit Air的规格。

1 分•作者: subroutine•25 天前•原帖

Flutter：macOS恶意广告活动传播新的FlutterShell后门程序

1 分•作者: brazukadev•25 天前•原帖

1ShotGen – 将粗略的想法转化为AI编码代理的一次性提示

1 分•作者: zachisparanoid•25 天前•原帖

数字广告的崛起及其经济影响（2024）

1 分•作者: hhs•25 天前•原帖

SpaceX首次公开募股

2 分•作者: 0xedb•25 天前•原帖

SpaceX等大型首次公开募股被标准普尔拒绝快速纳入指数

358 分•作者: tristanj•25 天前•原帖

问HN：嘿，你，好技术工作者——你感觉怎么样？

5 分•作者: arm32•25 天前•原帖

我觉得我们现在都有点低落。大家还好吗？你们的感觉怎么样？让我们倾诉一下吧。你们现在在想些什么呢？

展示HN：正式验证的多边形相交 – Opus 4.8 一次性项目，之前失败过

28 分•作者: permute•25 天前•原帖

据我所知，这是第一个经过正式验证的多边形交集算法实现。<p>在这个项目中与人工智能代理合作的经验随着最近模型的发布发生了很大变化，正如我在自述文件中所描述的那样。Opus 4.8能够一次性提供带有正式证明的算法实现，而之前的模型则需要我分步骤提供证明策略。<p>对正确性的信任完全来自于Lean检查器和对小规格的人工审查，而不是来自大型语言模型（LLM）。<p>还可以查看自述文件中链接的围绕经过验证的核心构建的网络演示：<a href="https://schildep.github.io/verified-polygon-intersection/" rel="nofollow">https://schildep.github.io/verified-polygon-intersection/</a>。它支持包括孔洞、自交和重叠边的多边形。

我厌倦了大型语言模型的技能混乱，因此我自己构建了一个，并进行了回归测试。

3 分•作者: iliaov•25 天前•原帖

我最近尝试了像Garry Tan的GStack这样的技能，花了一周时间使用它，意识到它存在一些缺陷（我会单独发帖讨论这个问题）。我的问题是：我怎么知道一个技能或提示是否好用（例如，GStack的 /office-hours）？我该如何比较类似的技能（例如，不同的“深度研究”技能）？识别出故障软件（相对来说）是简单的——它会崩溃，打印错误信息。而故障的技能却不会。那些经过精心打磨、听起来很自信的技能常常误导我，浪费我的时间，甚至让我希望自己根本不使用LLM（大型语言模型）。 AI技能是软件——它们应该配备回归测试。 LLM团队有大量的提示回归测试。LLM包装的SaaS公司也有大量的提示回归测试。但在开源技能方面，SKILL.md看起来合理，但却没有任何测试（例如，撰写时GStack的 /office-hours没有任何测试）。 Garry Tan，如果你听到我的声音——请考虑为你的 /office-hours、/plan-ceo-review、/plan-eng-review等技能提供回归测试。回归测试应该： 1. 证明技能正确运行 2. 演示正确和错误的用法 3. 证明技能的价值 4. 附带评分标准，以便进行技能基准测试 5. 最后一条是最有价值的，因为它可以让你将类似技能进行对比。所以我开始自己做这件事。以下是一个正在进行中的示例：plan-cmo-review，这是一个补充GStack的技能，因为在撰写时GStack缺少市场评审。我并不是一个市场营销专家；分享这个技能的目的是概述它的回归设置。简要来说，我的探索过程如下： - 我在几个产品上使用了GStack，意识到生成的design_document.md让我失败，主要是在市场营销方面。 - 我借助Claude Opus 4.8手动深入分析了技能的失败，最终找到了正确的解决方案。 - 我请Claude构建了一个plan-cmo-review技能，运行后得到了一个有缺陷的解决方案（类似于GStack的输出）。 - 我给Claude提供了正确的（手动）解决方案进行分析，并将其作为回归测试的基准。 - Claude进行了（盲）回归测试——失败了。我们进行了多次迭代，找到了关键问题：Claude盲目相信我的提示是最终真理。Claude认为GStack知道自己在做什么，而GStack相信我知道自己在做什么。但我实际上是在进行产品/初创公司的研究——根据定义，“研究”就是在你不知道自己在做什么时所做的事情。这个信任链就是导致技能失败的原因。 - 我们解决了信任问题，回归测试通过了。我们又添加了几个，结果也通过了。 - 我让Claude多次运行回归测试——出现了裂缝。Claude对技能进行了迭代。现在它们通过了。 - 这种方法论仍然存在缺陷。我想尝试运行不同的LLM，进行跨模型评估，以及更多的回归测试。技能链接：github.com/remakeai/plan-cmo-review。更多笔记见：iliaov.substack.com。

南大西洋异常区

1 分•作者: mooreds•25 天前•原帖

埃隆·马斯克正在窃取你的退休金。

1 分•作者: mooreds•25 天前•原帖

《滑板3 重新编译版》：Xbox 360 游戏的原生移植版，适用于 Windows 和 Linux。

1 分•作者: turingfeel•25 天前•原帖

如果人工智能业务是有史以来最伟大的业务，为什么他们还要进行首次公开募股（IPO）？

1 分•作者: OnuRC•25 天前•原帖

我理解需要更多资金和计算能力。但是，如果他们如此先进和优秀，为什么他们的私人投资者和股东会让这个数万亿美元的机会溜走呢？私人市场和家族办公室在万亿美元的层面上非常庞大。确实，他们可以在私人融资中筹集资金，直到字母Z，保持私有，就像一些公司能够做到的那样？为什么要出售这项有史以来最伟大商业的所有权？标准石油从未上市，他们在巅峰时期占据了超过10%的GDP，确实，真正自我进化的人工智能的价值将会高出数倍？甚至没有垄断拆分的风险，因为已经有多个竞争者。简单来说，他们并不相信当前的估值能证明未来的显著增长。他们需要退出自己的投资，尤其是在当前估值周围存在波动风险的情况下。

Claude Opus 4.8 系统提示泄露

1 分•作者: bakigul•25 天前•原帖

Anthropic警告称，人工智能可能很快会帮助构建其自身的继任者。

3 分•作者: devonnull•25 天前•原帖

人工智能中的意识：来自意识科学的洞见（2023）

1 分•作者: i5heu•25 天前•原帖

网络工作组

1 分•作者: frizlab•25 天前•原帖

突触高频跳跃将视觉与高速行为同步化

2 分•作者: PaulHoule•25 天前•原帖

奥迪发布了1,001马力的努沃拉里混合动力超级跑车，这样看来全电动的计划似乎不再是首选。

1 分•作者: Bender•25 天前•原帖

URL 中的 IPv6 区域是一个错误。

30 分•作者: xena•25 天前•原帖

上一页 1...365 366 367 368 369...6874 下一页