1作者: tonyww14 天前原帖
一种常见的方法来自动化亚马逊购物或类似复杂网站的操作是使用大型云模型(通常具备视觉能力)。我想测试一个矛盾:一个约30亿参数的本地大语言模型(LLM)能否仅通过结构化页面数据(DOM)和确定性断言来完成流程。 这篇文章总结了四次相同任务的运行(搜索 → 第一个产品 → 添加到购物车 → 在亚马逊上结账)。关键比较是演示0(云基线)与演示3(本地自主);演示1和2是中间控制。 更多技术细节(架构、代码片段、额外日志片段): https://www.sentienceapi.com/blog/verification-layer-amazon-case-study 演示0与演示3: 演示0(云,GLM-4.6 + 结构化快照) - 成功:1/1 次运行 - 令牌数:19,956(相比于约35k估算减少了约43%) - 时间:约60,000毫秒 - 成本:云API(变化不定) - 视觉:不需要 演示3(本地,DeepSeek R1 规划器 + Qwen ~30亿执行器) - 成功:7/7 步骤(重新运行) - 令牌数:11,114 - 时间:405,740毫秒 - 成本:$0.00 增量(本地推理) - 视觉:不需要 延迟说明:本地堆栈的端到端速度较慢,主要是因为推理在本地硬件(配备M4的Mac Studio)上运行;云基线受益于托管推理,但每个令牌有API成本。 架构 之所以成功,是因为我们改变了控制平面并添加了验证循环。 1) 限制模型看到的内容(DOM修剪)。 我们不提供整个DOM或截图。我们收集原始元素,然后运行WASM处理以生成紧凑的“语义快照”(角色/文本/几何),并修剪其余部分(通常约95%的节点)。 2) 将推理与执行分开(规划者与执行者)。 - 规划者(推理):DeepSeek R1(本地)生成步骤意图和后续必须为真的条件。 - 执行者(行动):Qwen ~30亿(本地)选择具体的DOM操作,如CLICK(id) / TYPE(text)。 3) 用Jest风格的验证控制每一步。 在每个动作后,我们断言状态变化(URL变化、元素存在/不存在、模态框/抽屉出现)。如果所需的断言失败,该步骤将失败,并带有伪影和有限的重试。 最小形状: ```python ok = await runtime.check( exists("role=textbox"), label="search_box_visible", required=True, ).eventually(timeout_s=10.0, poll_s=0.25, max_snapshot_attempts=3) ``` “看起来聪明的代理”和真正有效的代理之间的区别 日志中的两个示例: - 确定性覆盖以强制执行“第一个结果”意图:“执行者决策… [覆盖] first_product_link -> CLICK(1022)” - 抽屉处理验证并强制正确分支:“结果:通过 | add_to_cart_verified_after_drawer” 重要的是,这些不是事后分析,而是内联门控:系统要么证明它取得了进展,要么停止并恢复。 结论 如果你想让浏览器代理更可靠,最高效的措施不是使用更大的模型,而是限制状态空间,并通过逐步断言明确成功/失败。 代理的可靠性来自于验证(对结构化快照的断言),而不仅仅是模型规模的扩大。
1作者: salusinarduis14 天前原帖
简而言之:提议的FAA(联邦航空局)变更要求考官在测试之前,必须在您所使用的飞机型号上至少有五小时的飞行时间。由于存在数百种略有不同的型号变体(例如Cessna 172P与172R),大多数考官无法满足每架飞机所需的特定飞行小时数。这实际上使大多数本地考官失去资格,造成巨大的积压,使得几乎不可能找到合法允许进行飞行检查的考官。 FAA已发布对FAA命令8000.95D Chg 1的提议变更,这些变更直接影响指定飞行考官(DPEs)的操作方式以及飞行学校安排和进行实际测试的方式。提交意见的截止日期即将到来——1月23日星期五晚上11:59。请在这些提议变更成为最终政策之前,审阅并提供反馈。 如果您按照本消息末尾的说明和链接操作,提交意见将非常快速和简单。 提议变更的关键摘要 FAA命令8000.9D Chg 1 对DPE进行飞行教员考试的限制:这些变更将限制DPE进行飞行教员实际测试的能力。这一限制可能会显著减少考官的灵活性和可用性,特别是对高流量飞行学校的影响。相关内容见第3卷,第5章,第2节,H段,第(3)和(15)项。 新的PIC(机长)时间要求:考官在进行单发飞机的检查飞行之前,必须在每种型号上至少有五小时的机长飞行时间。此要求可能会限制可用考官的数量,并可能导致排期延误。相关内容见第3卷,第1章,第2节,表3-3。 收费规定:提议的变更将禁止DPE在申请人资格在预考简报中确定之前收取任何费用。这可能会给考官和飞行学校带来行政负担,可能会使排期和支付过程变得复杂。相关内容见第3卷,第5章,第2节,C段,第(7)和(8)项。 请在此处查看FAA命令8000.95D Chg 1提议变更的完整文本: https://www.faa.gov/aircraft/draft_docs/orders
1作者: sweave14 天前原帖
嗨,HN, 大多数生产力工具假设你已经知道该做什么。但我总是在这个阶段之前卡住。 Everpath 是一个将目标规划为路径和路线图的实验,而不是任务列表。你从用自然语言写下的目标开始,它会生成一个你可以不断迭代的路线图: - 通过与之对话来重塑它(“让这个慢一点”,“关注基础”) - 在执行时将其视为一个看板 - 在安排时间时将其视为日历 - 使用一种讨论模式,对不切实际的计划进行反驳 这并不是要取代自律或努力,而是为了让开始变得不那么费脑。 我很好奇哪些内容引起共鸣,哪些没有。
7作者: shijizhi_191914 天前原帖
嗨,HN,我正在尝试一个名为PicoFlow的小型Python库,用于构建使用轻量级DSL的LLM代理工作流。 我一直在使用像LangChain和CrewAI这样的工具,想探索一种更简单、更面向功能的方式来组合代理逻辑,更接近于普通的Python控制流和异步函数。 PicoFlow的重点在于: - 使用操作符组合异步函数 - 核心功能最小,学习概念较少 - 通过共享上下文实现明确的数据流 - 易于嵌入现有服务 一个典型的工作流如下所示: ``` flow = plan >> retrieve >> answer await flow(ctx) ``` 像循环和分支/合并这样的模式也被表示为操作符,而不是单独的图形或配置层。 这仍然处于早期阶段,且非常具有学习性质。我非常欢迎对DSL设计、缺失的基本元素,或这种风格是否对实际代理工作负载有用的任何反馈。 仓库链接:https://github.com/the-picoflow/picoflow
12作者: ofabioroma14 天前原帖
嘿,HN!我是法比奥,我创建了UltraContext,这是一个简单的上下文API,专为AI代理提供自动版本控制。 在过去两年中,我在生产环境中构建AI代理,亲身体验到在大规模管理上下文时的挫败感。存储消息、迭代系统提示、调试行为和多代理模式——在这一切过程中,还要确保不出错,真是让我抓狂。 所以我构建了UltraContext。它的思维模型类似于git用于上下文管理: - 更新和删除会自动创建版本(历史记录永不丢失) - 可以在任何时刻重放状态 这个API有5个方法: ```javascript uc.create() // 创建新上下文(可以从现有上下文分叉) uc.append() // 添加消息 uc.get() // 按版本、时间戳或索引检索 uc.update() // 编辑消息 → 创建版本 uc.delete() // 删除消息 → 创建版本 ``` 消息是无模式的。可以存储对话历史、工具调用、系统提示——无论你需要什么格式。可以直接将其传递给你选择的任何框架中的大型语言模型(LLM)。 它的用途包括: - 在会话之间持久化对话状态 - 调试代理行为(回溯到决策点) - 分叉上下文以测试不同的流程 - 无需构建审计基础设施即可实现审计跟踪 - 多代理和子代理模式 它不是什么: - 不是内存/RAG系统(没有语义搜索) - 不是向量数据库 - 不是编排/LLM框架 UltraContext处理版本控制、分支和历史记录。你只需一行代码即可实现时间旅行。 文档: [https://ultracontext.ai/docs](https://ultracontext.ai/docs) 提前访问: [https://ultracontext.ai](https://ultracontext.ai) 非常希望得到反馈!尤其是来自那些自己构建过上下文工程的人,想知道我遗漏了什么。
7作者: northfield2714 天前原帖
我一直在使用 GitHub Copilot 的免费版本进行代码建议和偶尔的工作任务。我也听说过很多关于 Cursor、Claude Code 和 OpenAI Codex 等工具的热议,但我还没有时间深入了解它们。 现在我有了一些空闲时间,正在寻找高质量的资源,要求如下: 1. 对当前的 AI 代码编辑器市场进行良好的概述 2. 解释工具特定的功能(例如,最近的功能如技能等) 3. 提供在实际开发工作流程中有效使用这些工具的战术建议 博客文章、视频、教程、从初学者到高级的指南,甚至个人工作流程的建议都将非常有帮助。
4作者: PL_Venard14 天前原帖
现在是2026年,我不应该每个月花3个小时手动分配15000美元的收入: - 50%给联合创始人 - 10%分给3个承包商 - 5-10%给大约15个合作伙伴 - 30%存入税务账户 这应该是自动化的,也许可以通过某种工作流构建工具来触发资金流动。 我尝试过的方式: - Stripe Connect:只能分配到一个账户 - Zapier:实际上无法转移资金(服务条款限制) - 手动脚本:可以工作,但我现在在维护财务基础设施 - Escrow.com:最低收费100美元,设计用于一次性交易 我想要的:设置规则一次 → 每个月自动分配资金。 问题: 1. 这种解决方案存在吗?(感觉我搜索得不够好) 2. 如果没有,为什么?是监管问题?没有人信任自动化处理资金?技术障碍?稳定币或许能帮助实现这一点。 3. 你们目前的解决方案是什么?自定义代码?还是仅仅手动转账? 我与大约20位创始人进行了交流。大多数人要么在: - 编写自定义脚本(需要开发技能和维护) - 支付会计师(费用高,仍然是手动操作) - 忍受手动转账(浪费时间) 看起来在“完全手动”和“建立自己的支付基础设施”之间存在一个空白。 我是不是遗漏了什么明显的东西?
2作者: fainpul14 天前原帖
您页面的数据存储在网址缩短服务的数据库中。<p>访问 <a href="https://tinyurl.com/mrpas5dc" rel="nofollow">https://tinyurl.com/mrpas5dc</a> 以了解其工作原理。<p>如果您不信任短网址,可以查看完整网址:<p><a href="https://mdview.io/#mdv=N4IgbiBcCMA0IBMCGAXJUTADrhzWOAtgnjgMQAEAYgE4CmdFKAFjQPYDuSXAnhR3QBGAByQBzRszYBnFAEsAdmKxYFKhWUoAJThTkp+bGgGtp69dAB0FAKrTJKFMOmQA9K+Jg5dDpbltXJjYKAGN6VEYeNgBXGgpRCVgKaOlFMQpCJBMETgUmOgAPFGsAFWZGELYFFDpqvWkKWSM6BD08lkYbACUAGSSOZjkQ5lCkPME6SsJGMDoaPgAbKrFLc1UAJms7RjG+bp7GqRoahTnGua8QxhRgsLoIiiQM5oyx8SEFzt6KADMjQ6yaWsAGU2NNzjRLnQGkgFksOBQotEgslhMgakxykwshIDPtHj8anEOr8kCEUP1BsNXsZoXoDMIZKlBJ8US19JjGAkdoSziocMJoiy5NJBkp+SBVqp1JoKABhJCzVBmaWqfGfJQseoUBZyQj6FrWACSKAA5A0EHIfj85rUDII+IJ2Bx7DRrHKqqkEGcWCLHhRmGTjI8FK0cgpTQYUowOX84rtfUo9IRGccxsUcAQQB1pqQQLqxMwUJmBfR7MWoDgciEzCAs39qsC5AAvOh4aAAdizutOWjockLFZgli7OB7dAA6nIECw8B2AGwABiz4W9NCoVSHOGkY1rK9qa4AsnNMtO8CgaNE6PvQ3MehECufL9eq3qjZUFLXID9YfYs9WADkkFzSsQGiap9E+BBLGIHAAF8QDgoA" rel="nofollow">https://mdview.io/#mdv=N4IgbiBcCMA0IBMCGAXJUTADrhzWOAtgnjgMQ...</a>
6作者: aninibread14 天前原帖
嗨,HN!我创建了Ghibli Search,这是一个针对吉卜力工作室电影场景(例如《千与千寻》、《邻居托托罗》、《哈尔的移动城堡》等)的语义搜索引擎。 你可以描述一个梦幻场景,比如“在日落时分飞翔于云端”,或者上传一张图片,它会从电影中找到视觉上相似的场景。 在线演示: [https://ghibli-search.anini.workers.dev](https://ghibli-search.anini.workers.dev) 完整的Cloudflare技术栈:Workers、AI搜索、R2、Workers AI 开源项目: [https://github.com/aninibread/ghibli-search](https://github.com/aninibread/ghibli-search) 欢迎对搜索质量提供反馈,以及任何改进建议!
1作者: inesbarros114 天前原帖
你好,HN - 我正在推出 powerapply.ai。 我和我丈夫都在全职工作。他学习了计算机科学,并创办了一家小型风险投资支持的公司。我是一个健康科技初创公司的增长负责人。构建小产品是我们的小小逃避。 最近,他在多年几乎不编程后又开始编码(主要使用 Claude、Cursor 和 Lovable)。经过几次尝试后,我们找到了一个都想探索的想法,这就是 Power Apply 的诞生。 去年底,我和一个正在找工作的朋友散步。她在抱怨求职过程是多么混乱:一次又一次地填写相同的表格,保持多个简历版本的更新,写那些听起来你真的很想要的求职信(显然,仅仅是有账单要支付并不足以说服人)。那天晚上,我在 Reddit 上发现了数百个相同的抱怨。我也尝试了一些旨在解决这个问题的产品,但发现它们都显得有些粗糙(而且价格昂贵)。 今天,Power Apply 做三件事: - 解析主简历,并为任何职位生成量身定制的版本,利用职位描述来决定强调什么以及如何表述; - 通过 Chrome 扩展自动填写求职申请(在提交前可以审核/编辑); - 在一个地方跟踪整个求职过程(保存、申请、面试、被拒绝)。 这是免费的。 我计划公开记录从 0 到 100 用户的旅程,主要是为了让自己保持责任感(我有一些想法想要测试和分享)。我之前在 HN 上发过帖,主要是与全职工作相关的内容,反馈总是非常有帮助(而且直言不讳)。 如果你正在找工作(或随意申请),我非常希望你能对产品或问题提出诚实的批评。有什么是目前缺失的而会对你有帮助的?如果你尝试了,有什么不好的地方?