21作者: throwaway-ai-qs9 个月前原帖
在代码审查和人工智能生成的垃圾之间,我受够了。无论是人们依赖人工智能来撰写拉取请求描述(顺便说一下,那些描述很糟糕),还是用它来生成测试……我对此感到厌倦。 在过去的一年里,我做了大量的咨询工作。在过去的三个月里,我看到至少有8家公司开始采用人工智能生成的代码、测试和代码审查。老实说,我看到的最好的建议都是通过持续集成中的代码检查工具和拼写检查器找到的。这就是我们现在的状况吗? 我想问问我的HN同胞们……这就是未来的趋势吗?这种情况无处不在吗?我觉得我终于准备好退出这场旋转木马了。
2作者: ccorcos9 个月前原帖
我经常发现自己在尝试解决一个几何问题时,约束条件非常简单易懂,但用代数方法解决却非常困难且繁琐。<p>我完全是用Claude Code从零开始构建这个东西。这是我第一次尝试,实际上我没有写一行代码……<p>不过,作为一个新手,构建这个仍然会很困难。我不得不沿着顺利的路径引导,但这为我节省了大量时间!<p>代码是开源的!如果你遇到任何问题,请告诉我。
10作者: ag89 个月前原帖
大家好,我们是 RunRL 的 Andrew 和 Derik(<a href="https://runrl.com">https://runrl.com</a>)。我们构建了一个平台,旨在通过强化学习来提升模型和智能体的性能。如果您能够定义一个指标,我们将帮助您改进模型或智能体,而无需您担心管理 GPU 集群的问题。 以下是演示视频:<a href="https://youtu.be/EtiBjs4jfCg" rel="nofollow">https://youtu.be/EtiBjs4jfCg</a> 我(Andrew)曾在语言模型的强化学习领域攻读博士学位,但大家总是...不使用强化学习,因为启动起来太困难了。某个时刻,我意识到必须有人坐下来,真正编写一个良好的平台来运行强化学习实验。 一旦这个平台建立起来,人们开始将其用于抗病毒设计、形式验证、浏览器智能体以及其他许多有趣的应用,因此我们决定将其发展成一家初创公司。 它的工作原理如下: - 选择一个开放权重的基础模型(权重对于强化学习更新是必要的;Qwen3-4B-Instruct-2507 是一个不错的起点) - 上传一组初始提示(例如:“生成针对 Sars-CoV-2 蛋白酶的抗病毒药物”,“证明这个定理”,“温得和克的夏季平均最高气温是多少?”) - 定义一个奖励函数,可以使用 Python、LLM 作为评判者,或两者结合 - 对于复杂的设置,您可以定义一个完整的多轮环境 - 观察奖励的提升! 对于大多数定义明确的问题,小型开放模型加上 RunRL 的表现优于前沿模型。(例如,我们发现 Qwen-3B 在抗病毒设计上表现优于 Claude 4.1 Opus。)这是因为 LLM 的智能特性往往是“尖峰”的;通常模型在常识知识上表现尚可,但在某些领域表现随机良好,而在许多其他任务上则容易出错。RunRL 正是在您需要的任务上创造了这些尖峰。 定价:每节点每小时 80 美元。大多数参数达到 14B 的模型可以适配在一个节点上(0.6-1.2 TB 的 VRAM)。我们进行全面的微调,代价是参数效率(在强化学习中,人们似乎非常关注例如智能体可靠性最后几个百分点的提升)。 接下来:持续学习;工具使用。目前工具使用处于私人测试阶段,您可以在这里加入:<a href="https://forms.gle/D2mSmeQDVCDraPQg8" rel="nofollow">https://forms.gle/D2mSmeQDVCDraPQg8</a> 我们期待听到您的想法、问题或任何正面或负面的反馈!
1作者: vintagedave9 个月前原帖
在过去几周里,我发现Claude Code的使用变得更加困难。它似乎对一些知名的库(例如对我来说是.Net)理解得不够好,因此我不得不从GitHub上下载库的源代码,并指示它阅读该库以了解如何使用;它的指令执行得也不够好;经常向我保证某些问题已解决,但有时却忘记了关键部分;而且它经常忽视自己的记忆:例如,它在有存储记忆指令的情况下仍然会提交,即使我要求它在我先确认之前绝不要提交。这开始让我感到非常耗时,我的生产力也远不如之前。其他人有这种情况吗?