返回首页
最新
嗨,HN,我是Yusuke Hata。我构建了polaris(<a href="https://github.com/octu0/polaris">https://github.com/octu0/polaris</a>),这是一个开源的Go框架,旨在帮助AI代理通过函数调用有效地使用分布式工具/代理。
管理函数架构会迅速变得复杂。polaris通过一个中央集群简化了这一过程:代理连接后,动态获取最新的函数定义,并准备好进行调用。无需为每个代理/更新手动处理架构。(详细信息请见README)。
更重要的是,polaris提供了基础设施,以释放AI在动态编排分布式函数方面的固有能力。
以下是它与传统RPC的不同之处:
```
- 无需手动接口定义交换:代理在连接后直接从polaris-registry集群获取定义。
- AI选择路径:AI代理分析集群中可用的函数定义,并根据当前上下文决定调用哪个远程函数,而不是由人类硬编码服务之间的交互方式。
```
我们的目标是使AI代理能够自主利用各种分布式工具/服务,超越典型RPC中僵化的人为定义连接。
我很想听听你们对这种方法的反馈。
请随时问我任何问题!
萨姆·阿尔特曼最近表示,用户对ChatGPT的礼貌行为让OpenAI花费了“数千万美元”,但这“花得值得”。
通常的观点是,强化学习与人类反馈(RLHF)依赖于明确的反馈(点赞/点踩),而礼貌的回应只是增加计算成本的噪音。
但像“谢谢!”或“不是,这个错了”这样的自然回复,是否可能比按钮点击提供更丰富、更频繁的隐性反馈信号?人们可能更常给出这种反馈(至少我就是)。这也反映了我们作为人类自然提供反馈的方式。
模型提供者是否可以挖掘这些聊天记录,以获取真实的用户情感,从而指导未来的RLHF,进而证明这笔费用的合理性?而这种“社交化”是否对未来需要对话细微差别的自主AI至关重要?
在HN上的问题:
你知道有人将这种隐性情感作为核心对齐信号吗?
嘈杂的文本情感与干净的按钮点击在训练中价值如何?
潜在的训练价值是否抵消了提到的计算成本?
我们是否低估了以这种方式“社交化”大型语言模型的价值?
你认为阿尔特曼所说的“花得值得”是什么意思?这仅仅关乎用户体验、宝贵的训练数据,还是完全其他的东西?
对于在这里使用它的人来说,这个空间还活着吗?