请问HN:你们是如何控制采取实际行动的人工智能代理的?

2作者: thesvp2 个月前原帖
我们正在构建能够执行实际操作的人工智能代理——例如退款、数据库写入和API调用。<p>像“绝对不要做X”这样的提示指令并不可靠。当上下文较长或用户强烈要求时,大型语言模型(LLMs)会忽略这些指令。<p>我们很好奇其他人是如何处理这个问题的: - 在每个操作之前进行硬编码检查? - 使用某种中间件层? - 只是寄希望于最好的结果?<p>我们为此构建了一个控制层——针对结构化数据、非结构化输出和保护措施采用不同的方法(https://limits.dev)。我们真心希望了解其他人是如何处理这个问题的。
查看原文
We&#x27;re building AI agents that take real actions — refunds, database writes, API calls.<p>Prompt instructions like &quot;never do X&quot; don&#x27;t hold up. LLMs ignore them when context is long or users push hard.<p>Curious how others are handling this: - Hard-coded checks before every action? - Some middleware layer? - Just hoping for the best?<p>We built a control layer for this — different methods for structured data, unstructured outputs, and guardrails (https:&#x2F;&#x2F;limits.dev). Genuinely want to learn how others approach it.