返回首页
24小时热榜
我认为强化学习(RL)是一种通过模型预测生成训练数据的方法——它直接促使模型扩展输出范围,因为数据的多样性增加。然而,从根本上讲,强化学习依赖于自举(bootstrapping)并存在动态目标问题,这也是其稳定性差的原因之一。近似价值函数的最有效方法之一是时序差分(TD),但这会导致样本噪声、函数逼近误差和动态目标问题。我认为我们需要在贝尔曼方程的层面上扩展纯强化学习理论,以实现更稳定的强化学习。因此,我们需要一个更好的价值函数数学基础和一个相互一致的可行逼近方法——以避免这些问题。
嘿,HN,
我创建了 woltspace,旨在让我在离开电脑时与我的编码助手进行互动。它是完全容器化的,因此您可以在它们的沙箱(小屋)内给予它们完全的访问权限。
目前它支持 Claude Code。每个会话都可以通过 Telegram 或 Slack 进行控制。得益于 Cloudflare 隧道,您可以从任何地方完全访问运行会话的终端。
Wolts 是具有自己个性、目标和记忆系统的生物。Wolts 的能力各不相同,浣熊是最聪明的(opus),而海狸则更快(sonnets)。每个 wolt 还管理自己的网站,显示在一个本地的分屏中;一侧是终端,另一侧是 wolt 的实时输出。
一个 wolt 可以构建全栈应用程序,您可以自我托管并通过隧道从任何地方访问。最重要的是,所有这些都在您的机器上运行。您拥有和控制一切。
它是完全开源的:github.com/jerpint/woltspace
我在寻找反馈,如果您觉得这有用,请告诉我!