5作者: wayy9 天前原帖
大家好,我是贾斯廷。我之前创建了 Phind,一个为开发者服务的 AI 搜索引擎。 我们在 Phind 遇到的最大问题之一是如何找出糟糕搜索的原因。我们每天有大量的搜索请求,但不到 1% 的用户提供任何明确的反馈。因此,我们要么手动查找搜索记录,要么进行一般性的系统改进,希望这些改进能够有所帮助。 随着代理的使用,这个问题变得更加复杂。追踪记录更长且更复杂,审核它们需要更多的精力。因此,我正在开发一个工具,能够直接分析大语言模型(LLM)的输出,帮助 LLM 应用和代理的开发者理解问题出在哪里以及原因。 我已经制作了一个演示,使用了浏览器代理的追踪记录(gpt-5):[https://trails-red.vercel.app/viewer](https://trails-red.vercel.app/viewer) 这个项目还处于早期阶段,但我有很多想法——例如对当前运行的代理进行过去失败的实时查询,以及建立偏好模型以扩展稀疏信号数据。 我非常希望能收到对演示的反馈。此外,如果你正在构建代理,并且每天有超过 1 万条追踪记录但尚未查看,欢迎与我联系。
3作者: xinbenlv9 天前原帖
我最近开始将人工智能编码助手融入我的日常工作流程中(特别是在使用Cursor Composer、Devin和Claude Code时),我注意到自己行为中出现了一种奇怪的模式。 我对待这些助手的方式就像对待最糟糕的微观管理者。 当我与一位人类初级开发者合作时,我会尽量提供“为什么”的解释和高层次的架构,然后给予他们解决问题的自主权。如果我在他们身后盯着,逐个指示每个变量名,在每个逻辑分支完成之前就进行评论,并不断打断说“不是,应该这样做”,他们(理所当然地)会在一周内辞职。 然而,与助手合作时,我发现微观管理实际上是最佳策略。 * 我将任务细分为原子单位。 * 我逐块审查代码,而不是按功能审查。 * 我实时不断纠正标准库的选择或变量命名约定。 我感觉自己在侵占助手的空间,而我本应信任它并让它自由发挥。这有时也打破了任务之间的分离。 让我更加不安的是,这种微观管理带来的心理负担和与我在管理方面所受训练之间的内心冲突。 所以我想问你: 你会对你的助手进行微观管理吗? 或者,最佳实践是什么?
4作者: marc_litchfield9 天前原帖
我提议使用测试驱动开发(TDD)来在一个我无法控制或没有内部知识的系统中通过一组测试。该系统包含必须拆解的“黑暗模式”。 为了运行这些测试,我计划在我对该公司的联邦诉讼中申请一位技术特别法官,要求永久禁令以强制进行所需的代码更改,从而使测试通过。我已提出电子发现的ESI协议,以便特别法官能够访问评估所提议的“测试”(约定的二进制质询)所需的代码和数据: ‣ 1) 登录验证邮件发送:当提交登录表单时,是否会向没有先前用户身份的输入电子邮件地址发送登录验证邮件?(是|否)。 ‣ 2) 账户完成表单展示:对于没有先前用户身份的输入电子邮件地址,在提交登录验证邮件中的有效代码后,是否会展示登录账户完成表单?(是|否)。 ‣ 3) 用户身份注册:在没有先前用户身份的情况下,提交登录账户完成表单是否会注册与输入电子邮件地址关联的用户身份?(是|否)。 ‣ 4) HomeAdvisor“欢迎回来”横幅展示:在没有先前用户身份的情况下,提交登录账户完成表单并进行首次登录时,homeadvisor.com上是否会显示包含“欢迎回来”字样的消息横幅?(是|否)。 ‣ 5) 支付方式删除展示:在angi.com上,支付方式控制是否缺少、遗漏或隐藏了删除或移除现有支付方式的界面元素?(是|否)。 ‣ 6) 支付方式删除能力:管理支付方式的功能是否缺少在不需要替代的情况下删除与注册用户关联的支付方式的能力?(是|否)。 ‣ 7) 支付令牌存储:在服务取消后,系统是否存储与用户支付方式关联的支付令牌?(是|否)。 如果现在所有问题的答案都是“是”,那么这些测试都将失败。如果法官批准禁令并强制公司进行整改,所有7个测试将通过(否=绿色)。这将导致两个当前可能对消费者造成伤害的“黑暗模式”(违反UTPA)的可验证拆解。 ■ 模式1:homeadvisor.com上的欺骗性登录注册流程将被替换为非欺骗性的登录体验(第1-4项)。 ■ 模式2:通过增加支付方式删除功能,将限制在angi.com上的强制金融数据保留(第5-7项)。 这是我提议的通过电子发现进行TDD的模型。被告将会抵制,但我相信我提出的是一个合理的模型,我希望在我们开始拆解周围的黑暗模式时,这种方法能在联邦贸易委员会(FTC)和证券交易委员会(SEC)的诉讼中得到应用。 有关更多背景信息,请参见我的联邦诉讼,Litchfield诉Angi Inc.(3:25-cv-02394-SI)。请注意,我在这里有经济利益,公开披露了对ANGI股票的看跌头寸。我的投资理论源于我对Angi Inc.欺骗性行为的发现。我的头寸是我对证据真实性的信念的体现,并不构成对他人的投资建议。 完整案件及所有证据可通过RECAP档案向公众公开获取:https://www.courtlistener.com/docket/72074717/litchfield-v-angi-inc/
2作者: JimsonYang9 天前原帖
我需要向一个大型语言模型提交大约1000行数据,以便我可以询问数据中的趋势。如果我使用JSON格式,我检查了GPT的分词器,每行大约需要40个token(因为每次都在引用表头,导致效率低下)。这意味着需要40,000个输入,这肯定会让我陷入上下文混乱(幻觉)的境地。我听说使用CSV格式会非常不准确。你有什么建议吗?
1作者: Tanjim9 天前原帖
我正在研究一个假设,希望能得到在B2B销售、收入运营(RevOps)或创办面向其他企业销售的公司的朋友们的意见。 假设: 很多交易的进展缓慢并不是因为产品不够强大或推销不够好,而是因为早期的对话中没有明确了解谁在买方组织中拥有决策权。 团队往往花费数周时间与那些感兴趣但没有决策权的人交流。当真正的决策者出现时,背景信息已经丢失,进展也被重置。 我很好奇: 1. 在您的经验中,销售开发代表(SDR)/客户经理(AE)是否会在早期有意识地绘制购买团队的结构? 2. 组织意识是否是团队接受培训或激励的内容? 3. 您是否见过因这个原因而导致交易停滞的情况? 4. 这主要是SDR的问题、AE的问题,还是领导层/流程的问题? 5. 是否有真正有效的工具或工作流程可以帮助解决这个问题(而不仅仅是那些没人更新的CRM字段)? 我只是想了解这是否是一个在团队中真实存在的、可重复的模式,还是一个过度思考的理论。 非常感谢您分享任何故事、反驳意见或对您有效的实践。
3作者: gengstrand9 天前原帖
我认为现在已经很清楚代理人工智能对程序员的影响。我很好奇技术领导者(例如软件架构师、资深工程师、高级开发人员、团队负责人)在完全投入代理人工智能的组织中,如何改变他们的工作方式以及他们的责任。现在是人工智能在编写代码……<p>我们还需要人类来管理技术债务吗?<p>我们还需要人类来审核人工智能的输出吗?<p>我们还需要人类来关注非功能性需求,例如可扩展性和容错性吗?<p>我们还需要有人类开发人员待命吗?<p>如果你对上述任何一个问题回答“是”,那么你是否认为这只是时间问题,最终你的答案会变成“不是”,还是你认为答案永远是“是的,人类是必要的”?请详细说明原因。