返回首页

24小时热榜

51作者: felix089大约 23 小时前原帖
“我想洗我的车。洗车场在50米外。我应该走路还是开车?”这个问题作为一个简单的人工智能逻辑测试在网络上广泛传播,因此我想看看它在不同模型中的表现如何。我测试了53个模型(包括领先的开源、开放权重和专有模型),没有系统提示,强制选择开车或走路,并提供了推理字段。 在一次测试中,只有53个模型中的11个答对了(42个选择了走路)。但一次测试并不能证明太多,所以我对每个模型进行了10次重复测试。使用相同的提示,没有缓存,干净的状态。 结果变得更糟。在11个通过第一次测试的模型中,只有5个能够持续正确回答。GPT-5的表现为7/10。GPT-5.1、GPT-5.2、Claude Sonnet 4.5,以及所有Llama和Mistral模型在10次测试中均得分为0/10。 人们一直说人类也会在这个问题上失败,因此我通过Rapidata获取了人类基线数据(10000人,使用相同的强制选择):71.5%的人选择了开车。大多数模型的表现低于这个水平。 所有的推理轨迹(通过我的初创公司Opper进行测试)、完整的模型分析、人类基线数据和原始JSON文件都在报告中,供任何想深入研究或进行自己分析的人使用。
20作者: otterley大约 2 小时前原帖
刚刚收到1Password的邮件: 自2005年以来,1Password一直致力于让安全变得简单、可靠且人人可及。随着人们在线工作和生活方式的演变,1Password也在不断发展。 最近,我们在新功能上进行了大量投资,使1Password变得更加强大且易于使用,帮助保护您最重要的内容,包括: * 自动保存登录信息和支付详情 * 增强的Watchtower警报 * 更快、更安全的设备设置 * 基于人工智能的项目命名 * 扩展的恢复选项 * 主动的网络钓鱼防护 尽管1Password在价值和功能上有了显著增长,但我们的定价在许多年里基本保持不变。为了继续投资于创新和您所期待的世界级安全,我们将于2026年3月27日起更新家庭计划的定价。 当前与新定价: * 当前价格:59.88美元/年 * 新价格:71.88美元/年 新价格将在您下次续订时生效,前提是续订日期在2026年3月27日或之后。在2026年3月27日之前的续订将继续按照当前价格进行。
13作者: prithvi2206大约 2 小时前原帖
嗨,HN!我是Prithvi——我的联合创始人Frances和我在近一年前推出了Promptless(链接:<a href="https://news.ycombinator.com/item?id=43092522">https://news.ycombinator.com/item?id=43092522</a>)。这是一个AI助手,它会监控你的工作流程——代码更改、支持票据、Slack讨论等——并在发现需要记录的内容时自动草拟文档更新。 Frances和我非常感谢我们第一次发布时收到的反馈。今天,我们推出了Promptless 1.0,解决了过去12个月中我们最大的学习成果。 我还简化了试用的过程。你可以在任何开放源代码的Github PR或Issue中标记@promptless,并请求文档更新,Promptless将为你的文档创建一个分支并打开一个PR以提供帮助。欢迎使用我们的文档作为实验场地:<a href="https://github.com/Promptless/docs/issues" rel="nofollow">https://github.com/Promptless/docs/issues</a>。 或者,你可以在<a href="https://promptless.ai">https://promptless.ai</a>注册,获得接下来30天内自己文档的免费访问权限。这里有一个演示视频:<a href="https://youtu.be/IWwimHCEY7Y" rel="nofollow">https://youtu.be/IWwimHCEY7Y</a>。 对我来说,过去一年最酷的部分是看到用户如何创造性地使用Promptless。有用户让Promptless监听他们所有的Slack Connect频道,因此每当他们回答客户问题时,Promptless会判断他们的文档是否需要更新,并在需要时草拟更新。另一个用户则让Promptless处理每个客户会议的记录,并在每次会议后更新他们的内部文档:客户仪表板、功能请求页面等。 版本1.0的一些新功能包括: - 自动更新截图:这是我们最受欢迎的功能。这里的需求一直很明确。人们会因为截图很快过时而将其排除在文档之外,<i>尽管他们知道截图对用户是有帮助的</i>。一年前,我们无法推出足够好的解决方案,但考虑到过去一年中大语言模型的视觉基础能力有了显著提升,现在我们有了值得自豪的成果。 - 无杂乱写作:早期Promptless建议中最常见的批评是,尽管它们准确,但听起来可能很普通或冗长,或者可能有AI的杂乱感。Promptless 1.0在这方面的表现提高了3.5倍(通过与用户实际发布内容的语音对齐进行测量),这得益于微调模型、子代理和用户定义偏好的对齐。 - 开源项目:我们对此特别自豪——Promptless现在对CNCF/Linux基金会项目免费(如果你是维护者,请联系我!)。你可以查看Promptless如何支持Vitess(一个CNCF毕业项目)的文档,链接在这里:<a href="https://github.com/vitessio/website/commits" rel="nofollow">https://github.com/vitessio/website/commits</a>。 请查看一下,如果你有任何问题、反馈或批评,请告诉我们!
8作者: JB_5000大约 16 小时前原帖
严肃的问题。<p>在政府或高度监管的企业之外,微软在2026年的核心价值主张是什么?<p>感觉很多采用都是继承来的——合同、合规、企业信任、现有组织的惯性。这不一定是技术偏好。<p>如果你今天从零开始,没有任何遗留问题,没有E5合同,没有沉没成本——有多少团队会真正选择完整的微软技术栈,而不是最佳工具组合?<p>想知道这里的人在全新建设中实际选择了什么。
5作者: iamben大约 2 小时前原帖
今天的邮件: 自2005年以来,1Password一直致力于让安全变得简单、可靠和人人可及。随着人们在线工作和生活方式的演变,1Password也在不断发展。 最近,我们在新功能上进行了大量投资,使1Password变得更加强大且易于使用,帮助保护您最重要的内容,包括: - 自动保存登录信息和支付详情 - 增强的Watchtower警报 - 更快、更安全的设备设置 - 基于AI的项目命名 - 扩展的恢复选项 - 主动的钓鱼防护 尽管1Password在价值和功能上大幅增长,但我们的定价在许多年里基本保持不变。为了继续在创新和您所期待的世界级安全上进行投资,我们将于2026年3月27日起更新个人计划的定价。 当前与新定价: 当前价格:每年35.88美元 新价格:每年47.88美元 新价格将在您下次续订时生效,前提是续订日期在2026年3月27日或之后。在2026年3月27日之前的续订将继续按照当前价格进行。 如果您有任何问题,请通过回复此邮件与支持团队联系。我们非常感谢您一直以来的信任和支持。 谢谢, 1Password团队