最新

1 分•作者: sherilm•3 个月前•原帖

1 分•作者: andsoitis•3 个月前•原帖

美国食品药品监督管理局（FDA）表示，如果公司使用天然染料，可以声明“无人工色素”。

9 分•作者: speckx•3 个月前•原帖

5 分•作者: JanLepsky•3 个月前•原帖

大家好，我们为 Renovate 构建了一个 Kubernetes 操作器，想和大家分享。这个操作器让你可以将 Renovate 作为原生 Kubernetes 资源进行管理，而不是将其作为定时任务运行或依赖托管服务。你可以声明性地定义你的代码库和配置，操作器会在你的集群内部处理调度和执行。没有外部依赖，没有 SaaS 锁定，也无需设置 webhook。整个项目是开源的，并且会一直保持开源——我们没有任何付费层或盈利计划，这只是我们自己需要的功能，觉得其他人也可能会需要。如果你尝试了这个操作器，欢迎反馈或提出想法： [https://github.com/mogenius/renovate-operator](https://github.com/mogenius/renovate-operator)

展示HN：Triclock – 一个三角形时钟

3 分•作者: franze•3 个月前•原帖

MDST引擎：在浏览器中使用WebGPU/WASM运行GGUF模型

14 分•作者: vmirnv•3 个月前•原帖

谁抹黑了费曼

1 分•作者: srean•3 个月前•原帖

程序员的时间分配

1 分•作者: speckx•3 个月前•原帖

能够通过无线信号和人工智能“看”到拐角的机器人

1 分•作者: geox•3 个月前•原帖

推理是新的销售和营销支出

1 分•作者: gmays•3 个月前•原帖

展示HN：AgentWire – 通过语音与您的AI编码代理进行跨设备交流

1 分•作者: prradox•3 个月前•原帖

我让Claude Code在我的家庭实验室中使用了150个攻击性安全MCP工具。

1 分•作者: jeffaf•3 个月前•原帖

展示HN：我们告诉OpenClaw执行rm -RF，它成功失败了。

1 分•作者: joshdevon•3 个月前•原帖

众所周知，OpenClaw 的魅力在于它为我们提供了 Simon Willison 所提出的致命三重奏：访问私有数据、接触不可信内容以及进行外部通信。虽然这种做法风险极高，但它让我们看到了如果我们真的能够信任代理人，未来可能会是什么样子。迄今为止，沙箱（或购买 Mac Mini）一直是降低风险的主要方法。虽然这是必要的，但沙箱也使代理人的实用性降低，因为它们最终限制了代理人的有用功能。为了应对 OpenClaw，我们采取了一种互补的方法。我们不仅仅建立了一个边界，而是开发了一个开源的 OpenClaw 扩展，利用 Cedar（AWS 的政策作为代码语言）为代理人创建确定性的通道。例如，我们创建了一项政策，禁止 OpenClaw 使用 rm 命令。我们并不是试图阻止大型语言模型（LLM）思考删除文件，或阻止它被注入提示以删除文件。相反，这个扩展会在执行之前捕获工具调用并阻止它。我们提供了三个政策包（共 103 条规则）： - 基础包：针对 sudo、rm、凭证等的保护。 - OpenClaw 系统保护：保护 SOUL.md、身份文件等。 - OWASP Agentic 包：基于 OWASP 前十名的代理应用程序安全标准。就像 OpenClaw 一样，这个项目仍处于实验阶段，尚未经过严格测试，因此请不要使用这个扩展来保护任何有价值或敏感的内容。我们希望这个项目能够作为一个强有力的概念验证，展示我们如何在风险环境中使用代理人，并依然能够信任它们遵循确定性的规则。有关更多细节和代码库链接，请查看我们的文章。我们非常希望听到其他人对这种方法的看法，以及您认为哪些政策会有用。

为什么人工智能是一个泡沫

1 分•作者: SharavFounder•3 个月前•原帖

人工智能是一个泡沫，投资者在毫无依据的情况下炒作，就像互联网泡沫破裂一样，人工智能的泡沫会很快破裂吗？我想不会，这种情况实在太糟糕了。

由于联邦航空局因安全原因实施为期10天的空域禁飞，埃尔帕索的航班被暂停。

1 分•作者: dylan604•3 个月前•原帖

在人工智能时代，拥抱你的懒惰

1 分•作者: mplappert•3 个月前•原帖

GLM5在Z.ai平台上发布

80 分•作者: CuriouslyC•3 个月前•原帖

展示HN：Gridpaper：在浏览器中生成科学图形，基于WASM的gnuplot构建

2 分•作者: hnarayanan•3 个月前•原帖

展示HN：Auditi – 开源的LLM追踪与评估平台

2 分•作者: ariansyah•3 个月前•原帖

我在工作中一直在构建人工智能代理，最难的部分并不是提示或协调，而是在生产环境中回答“这个代理真的好吗？”这个问题。追踪可以告诉你发生了什么。但我想知道发生得有多好。因此，我构建了Auditi——它捕获你的LLM（大语言模型）追踪和跨度，并使用LLM作为评判者加上人工注释工作流自动评估它们。开始的两行代码： ```python auditi.init(api_key="...") auditi.instrument() # 对OpenAI/Anthropic/Gemini进行猴子补丁 ``` 每个API调用都会捕获完整的跨度树、令牌使用情况和成本。对你现有的LLM调用没有代码更改。有趣的技术点：SDK在运行时对client.chat.completions.create()进行猴子补丁（类似于OpenTelemetry自动对HTTP库进行仪器化）。它用代理迭代器包装流式响应，这些迭代器会累积内容并从最后一块提取使用情况——因此即使是流式响应也能实现完整的成本跟踪，而用户无需做任何事情。与简单追踪的不同之处在于： - 内置评估器——7个管理的LLM评判者（幻觉、相关性、正确性、毒性等）会自动在每个追踪上运行 - 跨度级评估——对多步骤代理中的每一步进行评分，而不仅仅是最终输出 - 人工注释队列——当你需要真实数据，而不仅仅是感觉时 - 数据集导出——注释后的追踪可以导出为JSONL/CSV/Parquet格式，以便进行微调使用docker compose up进行自托管。我非常希望能收到任何在生产环境中运行AI代理或LLM的人的反馈。你们实际关注哪些指标？你们如何判断一个代理的响应是否“足够好”？ GitHub: [https://github.com/deduu/auditi](https://github.com/deduu/auditi)

铝箔为什么一面光亮而另一面则是哑光的？

25 分•作者: surprisetalk•3 个月前•原帖

上一页 1...1433 1434 1435 1436 1437...6237 下一页