3作者: ggattip24 天前原帖
我构建了一个基准测试,涵盖了18个Python项目中的20个真实CVE(如Pillow、GitPython、yt-dlp、urllib3等)。我在5个大型语言模型(3个OpenAI模型和2个poolside模型)上进行了测试,并使用了3种不同的提示(完整建议、定位、诊断),总共进行了300次运行。这些模型的任务是在一个沙箱环境中修复安全漏洞,并根据维护者自己修复的隐藏安全测试进行评分。 最佳解决率为50%。在另外50%的情况下,有些修复虽然有时逻辑上是连贯的并且通过了所有回归测试,但漏洞仍然存在。 我发现模型之间的主要区别在于成本:gpt-5.5的费用是gpt-5.4-mini的12倍,但产生的结果在统计上相似。模型内部的性能差距很小,这表明差异可能是由于模型的训练数据。我还进行了功效分析,发现需要大约700个任务才能检测到有意义的模型内部优势。 完整报告请访问: [https://giovannigatti.github.io/cve-bench](https://giovannigatti.github.io/cve-bench) 代码请访问: [https://github.com/GiovanniGatti/cve-bench](https://github.com/GiovanniGatti/cve-bench)
2作者: codetiger24 天前原帖
在过去的几天里,Claude Code CLI 的响应速度非常慢。尤其是在 4.8 版本发布之后,今天的情况更是变得完全无法使用。然而,状态页面上并没有报告任何问题。我已经在 GitHub 上提交了一个问题,但在过去几个小时内仍然没有得到回应。
1作者: preetsuthar1724 天前原帖
你好,HN, 我叫Preet Suthar,过去五年来一直在做自由职业者。每个月与多个客户合作,迅速变得难以跟踪所有事务。当客户要求增加工作量时,我发现很难有效管理任务、文档和知识。这也给那些试图管理五个不同平台(用于沟通、文档、知识库和项目管理)的客户带来了问题。 最终,我们开发了自己的内部解决方案:一个简单的客户门户。这个门户允许我们安全地沟通、存储文档、管理项目和访问公司知识。我们的客户非常喜欢这个解决方案,人们经常问我关于我的工作流程以及我们如何使用这个内部工具。当我提到它时,他们似乎非常感兴趣。 我意识到这个解决方案对其他人也会有帮助,比如公司创始人、代理机构老板和SaaS开发者。因此,我对我们的内部工具进行了优化,重新命名为“Relysta”,并在本月推出。它取得了相当大的成功,人们实际上很喜欢这个产品。 我很想听听你们的想法和建议。 谢谢, Preet
4作者: bkazez24 天前原帖
经过25年的时间,我一直在制作他人的煎饼食谱——总是渴望更多的酸味、更多的松软和更多的可预测性——我决定从化学的角度推导出煎饼食谱。 你可以勾选手头上有哪些材料(如意大利乳清干酪、酸奶油、开菲尔、酪乳、酸奶、农家奶酪、柠檬、塔塔粉等),系统会根据酸、脂肪、盐、糖和二氧化碳的目标值计算出最佳食谱。 我特别喜欢的是酵母发酵的柠檬意大利乳清干酪开菲尔煎饼——这是我吃过的最好吃的煎饼。 这些计算是在一个小型的纯ESM库中完成的:成分组成到组分质量和酸的摩尔数,反应计量层,以及针对目标缺口的二分法求解器。 我不是化学家,所以如果有什么不对的地方,请告诉我,我会修正的!