最新

展示HN：SteerPlane – AI代理的运行时保护措施（成本限制、循环）

1 分•作者: vijaym2k6•大约 2 个月前•原帖

Beagle，一个存储抽象语法树（AST）的源代码管理系统。

30 分•作者: strogonoff•大约 2 个月前•原帖

受Taskwarrior启发的CLI RSS/Atom订阅源阅读器，通过Git进行同步。

5 分•作者: todsacerdoti•大约 2 个月前•原帖

大品牌尿布如何从美国父母那里吸收数十亿美元的额外支出

25 分•作者: Anon84•大约 2 个月前•原帖

展示HN：AvaKill – 面向AI代理的确定性安全防火墙（<1毫秒，无需机器学习）

2 分•作者: duroapp•大约 2 个月前•原帖

为什么大多数通用智能体会失败，以及我为何避免使用大型语言模型的“推理”功能。

1 分•作者: cid435•大约 2 个月前•原帖

代理的核心能力完全源于基础的大型语言模型（LLM）。因此，代理的未来严格取决于当前LLM的状态。那么，LLM现在处于什么阶段呢？我认为我们目前正处于人工智能的“家庭工业”阶段——工业化的黎明。用一个历史类比来说：我们刚刚发明了第一台蒸汽机。它们笨重、固定，只能用于从煤矿抽水。我们距离拥有蒸汽机车还远得很。现在，定制代理的数量正在迅速增长。但如果仔细观察，它们几乎都是“自给自足”的，并且相互孤立。每个人都在为自己特定的用例构建自己的代理，但要将它们适应或扩展到更广泛的用途却非常困难。这就像每个家庭都有自己的织布机，织自己的布料，从不使用别人的。为什么会这样？这归结于当前LLM的局限性。如果暂时不考虑多模态能力，基于文本的LLM基本上有四个核心支柱： 1. 自然语言理解（NLU） 2. 自然语言生成（NLG） 3. 工具调用 4. 推理前面三个已经非常成熟且可靠。但第四个——推理——仍然是一个充满幻觉的雷区。然而，代理开发者最为痴迷的是什么？推理。为什么？因为在演示中看起来很酷。这种痴迷正是我们无法真正“工业化”代理的原因。这也是为什么在实际应用中很难找到一个真正可靠的通用代理（最近关于Manus的炒作与现实检查就是一个教科书式的例子）。当然，总有一天LLM的推理能力可能会超过99%的人类。当那一天到来时，我们将最终看到真正强大、通用的代理。但老实说，没有人确切知道这个时间表会在何时到来。我的结论是：如果我今天要为生产构建一个通用代理，我将严格利用NLU、NLG和工具调用。我会尽量避免依赖“推理”。最近和一些朋友关于人工智能的对话让我思考了这些。我的观点似乎引起了他们的共鸣，所以我在这里分享，希望听听你的想法。

展示 HN：SkyClaw - 用 Rust 开发的自愈 LLM 代理运行时，支持任务检查点功能

1 分•作者: nagi_builds•大约 2 个月前•原帖

展示HN：Ttylag – 一个用户空间的PTY封装器，用于模拟缓慢/延迟的终端

1 分•作者: cbrunnkvist•大约 2 个月前•原帖

如果你曾想让你的高大上的 TUI 接受一些混沌工程的考验，看看它如何应对 500ms 的抖动，而不必真的去找一个信号差的 Wi-Fi 点，我为你开发了一个工具！ttylag 将任何命令包装在一个“形状”的 PTY 中。无需复杂的管道，也不需要 tc 排队规则。它可以处理 RTT 和抖动，双向延迟，甚至还有一个 --bits-per-byte 标志（如果你对此感兴趣的话）。它仅在用户空间中运行，支持 macOS，可能也支持 Linux，无需调整网络命名空间或防火墙规则。

展示HN：Trawl – 使用自然语言字段抓取任何网站，而不是使用CSS选择器

1 分•作者: trawlcli•大约 2 个月前•原帖

我编写的每一个爬虫都有相同的失败模式：它工作三个月后，网站进行重新设计，我的 CSS 选择器默默地返回空字符串。数据仍然在页面上——人类可以瞬间找到它——但爬虫却失去了视线。 Trawl 通过将问题拆分来解决这个问题。你描述你想要的内容： ``` trawl "https://books.toscrape.com" --fields "title, price, rating, in_stock" ``` 大型语言模型（Claude）查看一个示例项目并推导出完整的提取策略——CSS 选择器、属性映射、类型转换、后备选择器。该策略会被缓存。每个后续具有相同结构的页面都使用纯 Go 和 goquery 提取。没有 API 调用，没有令牌成本，完全并发。关键见解：大型语言模型擅长理解 HTML 结构，但你不需要它们来提取 10,000 行数据。使用 AI 进行智能处理，使用 Go 进行高吞吐量处理。当网站重新设计时，结构指纹会发生变化，缓存失效，Trawl 会自动重新推导。你可以预览它到底推导出了什么： ``` $ trawl "https://example.com/products" --fields "name, price" --plan 策略针对 https://example.com/products 项目选择器：div.product-card 字段： name: h2.product-title -> text (string) price: span.price -> text -> parse_price (float) 置信度：0.95 ``` 一些需要真正工程努力的功能： - JS 渲染的单页应用：无头浏览器与 DOM 稳定性检测——轮询直到元素数量稳定，骨架加载器解析，滚动以触发懒加载，自动点击“显示更多”按钮 - 多部分页面：启发式检测候选数据区域，使用 `--query "Market Share"` 针对特定部分，利用容器选择器进行提取范围 - 自我修复：监控提取健康状况（填充字段的百分比），如果低于 70%，则重新推导策略 - iframe：自动检测并从 iframe 中提取数据，当它们包含比外部页面更丰富的数据时输出格式为 JSON、JSONL、CSV 或 Parquet。管道清晰： ``` trawl "https://example.com/products" --fields "name, price" --format jsonl | jq 'select(.price > 50)' ``` 使用 Go 编写，MIT 许可。

展示HN：我记录了Gemini的股票预测38天，以研究大型语言模型的漂移情况。

1 分•作者: clsia•大约 2 个月前•原帖

如何将文档作为营销工具使用

1 分•作者: taubek•大约 2 个月前•原帖

展示HN：Zettel – 本地快速笔记（iOS/macOS）

1 分•作者: surrTurr•大约 2 个月前•原帖

展示HN：CCP，一个命令行代理，能够修剪终端输出而不改变命令。

1 分•作者: SuppieRK•大约 2 个月前•原帖

我创建了ccp，因为我注意到编码代理在终端输出上浪费了大量上下文。它会执行真实的命令，修剪重复的部分，同时保持命令行为不变。以下是两个来自实际工作的真实案例：Java/Gradle任务（Claude Code）：5,330,571 -> 90,127 估计标记，跨越88个命令（节省了98.31%） 跨4个代码库的研究任务（Claude Code）：944,007 -> 59,195 估计标记，跨越96个命令（节省了93.73%） 你可以通过安装脚本进行尝试，运行ccp init，然后通过ccp gain检查效果。这并不是每个命令都能神奇地节省上下文。在这个代码库与Codex的实际使用中，当命令中有大量像sed和openspec这样的传递命令时，整体节省效果较低。它还可以通过ccp init在广泛的代理中使用，包括Codex、Claude、Cline、Cursor、Gemini、GitHub Copilot、Roo Code、Aider等。代码库：<a href="https://github.com/SuppieRK/ccp" rel="nofollow">https://github.com/SuppieRK/ccp</a>如果你大量使用编码代理，哪些命令在你的工作流程中浪费了最多的上下文？

合并或死亡 – AI代理的持续集成

1 分•作者: ashmawy•大约 2 个月前•原帖

在Claude Code中循环调度任务

1 分•作者: jonator•大约 2 个月前•原帖

我将Linux移植到了PS5，并将其变成了一台Steam机器。

61 分•作者: doener•大约 2 个月前•原帖

展示HN：Caliper – 带有自定义元数据的自动化仪器化大语言模型可观察性

2 分•作者: OliverGuy•大约 2 个月前•原帖

Caliper旨在自动化Python中的大型语言模型（LLM）调用，它通过猴子补丁（monkey patch）OpenAI和Anthropic的SDK（计划添加LiteLLM，以便您可以使用任何想要的提供者），因此对于开发者来说几乎是完全隐形的，并且对于基本的指标，只需在开始时进行一次init()初始化即可。它还可以收集有关调用的自定义元数据，这可以是您想要的任何键值对（KV），包括请求前和请求后的数据。 ```python import caliper import anthropic caliper.init(target="s3") # 这就是基本可观察性所需的全部，不需要对LLM调用进行任何更改以获取基本指标 client = anthropic.Anthropic() response = client.messages.create( model="claude-sonnet-4-20250514", messages=[{"role": "user", "content": "2 + 2 等于多少？"}], caliper_metadata={"campaign": "q4"}, # 请求前的元数据 ) print(response.content[0].text) caliper.annotate(sentiment="positive") # 请求后的元数据 ``` 您可以使用此功能跟踪模型更改的有效性，并根据不同的用户层级进行跟踪。也许您的免费用户不会注意到您使用了更便宜的模型，但付费用户会注意到？您如何知道最近的系统提示更改是否有效？您可以在元数据中跟踪提示的版本，并比较不同提示版本之间的请求后评分注释。它具有开发模式，可以进行本地日志记录，也可以将文件发送到S3。该SDK具有后台队列和工作程序，可以按可配置的大小和时间间隔批量刷新。它将数据导出为批量JSON文件，以便轻松集成到大多数数据工程管道中，或者您也可以使用DuckDB等工具直接查询。 PyPi: [https://pypi.org/project/caliper-sdk/](https://pypi.org/project/caliper-sdk/) 编辑：格式调整和PyPi链接

展示HN：AI代理在Gemini的免费套餐下运营我的单人公司 – 每月$0

2 分•作者: ppcvote•大约 2 个月前•原帖

我是一名在台湾的独立开发者。我为我的科技公司构建了四个AI代理，分别处理内容、销售线索、安全扫描和运营——全部使用Gemini 2.5 Flash的免费套餐（每天1,500次请求）。我每月使用约105次。LLM的月费用为0美元。架构：四个代理在OpenClaw（开源）上运行，使用WSL2在家中运行，配备25个systemd定时器。它们每天的工作内容： - 在各个平台上生成8条社交媒体帖子（质量控制：生成 → 自我审核 → 如果得分低于7/10则重写） - 与社区帖子互动并自动回复评论（上下文感知，最多2轮） - 通过RSS + HN API + Jina Reader进行研究 → 将情报反馈到内容中 - 运行UltraProbe（AI安全扫描器）进行潜在客户生成 - 监控7个端点，标记过时的线索，同步客户数据 - 当我进行git push时，自动将博客文章发布到Discord（0 LLM令牌——直接使用提交信息）令牌优化技巧：代理从不进行长时间对话。每个请求都是（1）读取预计算的情报文件（本地markdown，0令牌），（2）一个集中提示，注入所有上下文，（3）一个响应 → 解析 → 行动 → 完成。研究管道（RSS、HN、网页抓取）消耗0 LLM令牌——这只是纯HTTP + Jina Reader。LLM仅用于创意/分析工作。真实数据： - 27个自动化的Threads账户，超过12K粉丝，超过3.3M浏览量 - 25个systemd定时器，62个脚本，19个情报文件 - RPD利用率：7%（105/1,500）——剩余93%的余量 - 月费用：0 LLM + 约5美元的基础设施费用（Vercel爱好者版 + Firebase免费）出现的问题： - 7天内产生了127美元的Gemini账单。创建了一个来自启用计费的GCP项目的API密钥，而不是AI Studio。考虑到令牌（$3.50/百万）没有速率上限。教训：始终直接从AI Studio创建密钥。 - 互动循环错误：迭代了所有帖子，而不是前N个。一天内消耗了800 RPD，导致其他一切都无法运作。 - Telegram健康检查调用getUpdates，与网关的长轮询冲突。3分钟内出现18条重复消息。该网站（[https://ultralab.tw](https://ultralab.tw)）是完全双语的（zh-TW/en），有21篇博客文章，确实——国际化、博客发布和Discord通知都是自动化流程的一部分。实时代理仪表板：[https://ultralab.tw/agent](https://ultralab.tw/agent) 技术栈：OpenClaw、Gemini 2.5 Flash（免费）、WSL2/systemd、React/TypeScript/Vite、Vercel、Firebase、Telegram Bot、Resend、Jina Reader。 GitHub（操作手册）：[https://github.com/UltraLabTW/free-tier-agent-fleet](https://github.com/UltraLabTW/free-tier-agent-fleet) 欢迎就架构、令牌预算或作为一人公司全天候运行AI代理的实际体验提问。

打印井字棋

19 分•作者: carlos-menezes•大约 2 个月前•原帖

展示HN：Aivaro – 开源的AI替代Zapier

4 分•作者: abelo9996•大约 2 个月前•原帖

嘿，HN，我创建Aivaro是因为我的兄弟每个月在Zapier上花费超过30美元，而我可以用一句话描述他所需的工作流程。这个想法是：用简单的英语描述你想要的，AI会构建工作流程，你审核敏感步骤（如电子邮件、支付），然后它会自动运行。 - 20多个集成（Google、Stripe、Slack、Shopify等），212种工具 - 可视化拖放编辑器，方便手动调整 - 人工干预：未经你的批准，任何操作都不会执行我希望能得到对产品的反馈，以及如何增强产品以便能被更广泛的受众使用。我很乐意回答关于架构的问题。

上一页 1...838 839 840 841 842...6031 下一页