2作者: ccorcos3 个月前原帖
我经常发现自己在尝试解决一个几何问题时,约束条件非常简单易懂,但用代数方法解决却非常困难且繁琐。<p>我完全是用Claude Code从零开始构建这个东西。这是我第一次尝试,实际上我没有写一行代码……<p>不过,作为一个新手,构建这个仍然会很困难。我不得不沿着顺利的路径引导,但这为我节省了大量时间!<p>代码是开源的!如果你遇到任何问题,请告诉我。
10作者: ag83 个月前原帖
大家好,我们是 RunRL 的 Andrew 和 Derik(<a href="https://runrl.com">https://runrl.com</a>)。我们构建了一个平台,旨在通过强化学习来提升模型和智能体的性能。如果您能够定义一个指标,我们将帮助您改进模型或智能体,而无需您担心管理 GPU 集群的问题。 以下是演示视频:<a href="https://youtu.be/EtiBjs4jfCg" rel="nofollow">https://youtu.be/EtiBjs4jfCg</a> 我(Andrew)曾在语言模型的强化学习领域攻读博士学位,但大家总是...不使用强化学习,因为启动起来太困难了。某个时刻,我意识到必须有人坐下来,真正编写一个良好的平台来运行强化学习实验。 一旦这个平台建立起来,人们开始将其用于抗病毒设计、形式验证、浏览器智能体以及其他许多有趣的应用,因此我们决定将其发展成一家初创公司。 它的工作原理如下: - 选择一个开放权重的基础模型(权重对于强化学习更新是必要的;Qwen3-4B-Instruct-2507 是一个不错的起点) - 上传一组初始提示(例如:“生成针对 Sars-CoV-2 蛋白酶的抗病毒药物”,“证明这个定理”,“温得和克的夏季平均最高气温是多少?”) - 定义一个奖励函数,可以使用 Python、LLM 作为评判者,或两者结合 - 对于复杂的设置,您可以定义一个完整的多轮环境 - 观察奖励的提升! 对于大多数定义明确的问题,小型开放模型加上 RunRL 的表现优于前沿模型。(例如,我们发现 Qwen-3B 在抗病毒设计上表现优于 Claude 4.1 Opus。)这是因为 LLM 的智能特性往往是“尖峰”的;通常模型在常识知识上表现尚可,但在某些领域表现随机良好,而在许多其他任务上则容易出错。RunRL 正是在您需要的任务上创造了这些尖峰。 定价:每节点每小时 80 美元。大多数参数达到 14B 的模型可以适配在一个节点上(0.6-1.2 TB 的 VRAM)。我们进行全面的微调,代价是参数效率(在强化学习中,人们似乎非常关注例如智能体可靠性最后几个百分点的提升)。 接下来:持续学习;工具使用。目前工具使用处于私人测试阶段,您可以在这里加入:<a href="https://forms.gle/D2mSmeQDVCDraPQg8" rel="nofollow">https://forms.gle/D2mSmeQDVCDraPQg8</a> 我们期待听到您的想法、问题或任何正面或负面的反馈!
1作者: vintagedave3 个月前原帖
在过去几周里,我发现Claude Code的使用变得更加困难。它似乎对一些知名的库(例如对我来说是.Net)理解得不够好,因此我不得不从GitHub上下载库的源代码,并指示它阅读该库以了解如何使用;它的指令执行得也不够好;经常向我保证某些问题已解决,但有时却忘记了关键部分;而且它经常忽视自己的记忆:例如,它在有存储记忆指令的情况下仍然会提交,即使我要求它在我先确认之前绝不要提交。这开始让我感到非常耗时,我的生产力也远不如之前。其他人有这种情况吗?
1作者: ElysiumAbove3 个月前原帖
嗨,我是米里亚姆——一名心理学家和创伤知情教练。 我专注于帮助*数字游牧者和外籍人士*,让他们在过着无地点依赖的生活时,感到扎根和满足。 我的许多客户面临以下挑战: - 在旅行中感到孤立或失联 - 难以维持旅途中的人际关系 - 对工作、财务或未来感到焦虑 - 难以建立支持心理健康的日常生活 - 在生活不确定时,旧有的取悦他人、自我怀疑或倦怠的模式重新浮现 在我们的合作中,我们结合了基于证据的心理治疗工具、身体实践和关系疗愈方法。我的背景包括两年的临床经验,培训灵感来自彼得·莱文、皮特·沃克和丹尼尔·布朗。 我帮助你建立*内在的稳定性、韧性和自信心*,让你无论身处何地都能蓬勃发展。 *我们的合作方式* 我们在一个私密平台上会面,你可以选择视频或音频会议——非常适合你在移动中使用。 *费用* 60分钟,150美元 *联系方式* 在这里私信我或通过电子邮件联系我:helpwithmiriam@gmail.com