3作者: ruben-davia9 天前原帖
嗨,HN, 我们是Ruben、Afnan和Theo,约一个月前,我们开始开发一个测试版的网页应用,旨在提供更具视觉感的角色扮演体验。 我们认为,角色扮演的最佳效果是让它像真实对话,而不是像阅读聊天记录。因此,我们专注于一种手机交流的格式,让角色像在你手机的另一端一样给你发消息,并能够发送随着故事发展而变化的图片,实时反应发生的事情。 自从第一次测试版发布以来,我们围绕几个核心理念进行构建: - 每个角色都有本地记忆,能够保持上下文并记住过去的互动 - 无广告,无干扰,专注于体验 - 无限角色创建,可以构建你想要的任何世界和角色 iOS: [https://apps.apple.com/us/app/davia-visual-ai-chat-platform/id6757320079](https://apps.apple.com/us/app/davia-visual-ai-chat-platform/id6757320079) Android: [https://play.google.com/store/apps/details?id=com.davia.app](https://play.google.com/store/apps/details?id=com.davia.app) 目前还处于早期阶段,我们正在积极迭代。 我们很想听听你的想法,以及你希望在这种体验中改进的地方。 :)
1作者: Bayram9 天前原帖
我不断地在Claude、Codex和Gemini CLI之间复制粘贴同一个问题——一个模型审查另一个模型的工作,反复进行,直到我满意为止。于是我决定将这个过程自动化,以便自己不再参与。 这就是Scott Page的“多模型思维”在实践中的体现:每个模型都有其独特的特性和盲点,因此在它们之间进行三角测量,往往能发现单一模型所遗漏的内容。 三种模式: - 深思熟虑:一个代理生成内容,另一个进行审查,反复迭代直到达成共识 - 委员会:并行意见 + 匿名同行评分 + 综合(灵感来自Karpathy的llm-council) - 辩论:两个代理进行正反辩论,第三个进行评判 需要使用两个以上的:Claude Code、Codex或Gemini CLI。
5作者: wayy9 天前原帖
大家好,我是贾斯廷。我之前创建了 Phind,一个为开发者服务的 AI 搜索引擎。 我们在 Phind 遇到的最大问题之一是如何找出糟糕搜索的原因。我们每天有大量的搜索请求,但不到 1% 的用户提供任何明确的反馈。因此,我们要么手动查找搜索记录,要么进行一般性的系统改进,希望这些改进能够有所帮助。 随着代理的使用,这个问题变得更加复杂。追踪记录更长且更复杂,审核它们需要更多的精力。因此,我正在开发一个工具,能够直接分析大语言模型(LLM)的输出,帮助 LLM 应用和代理的开发者理解问题出在哪里以及原因。 我已经制作了一个演示,使用了浏览器代理的追踪记录(gpt-5):[https://trails-red.vercel.app/viewer](https://trails-red.vercel.app/viewer) 这个项目还处于早期阶段,但我有很多想法——例如对当前运行的代理进行过去失败的实时查询,以及建立偏好模型以扩展稀疏信号数据。 我非常希望能收到对演示的反馈。此外,如果你正在构建代理,并且每天有超过 1 万条追踪记录但尚未查看,欢迎与我联系。