返回首页
最新
你是如何度过你的日子的?几个月前,我还在提升技能并准备面试,但现在我已经失去了所有的动力。我对这一切都不感兴趣,人工智能已经彻底改变了整个生态,即使有人重新回到这个行业,一切似乎也都不再是过去的美好时光,而那些美好时光其实也并没有那么伟大。我比任何事情都更怀念有工资的日子,甚至是我曾经厌烦的每日站会,它们给了我结构和目标,而这些我现在无法替代。
嗨,HN,我 fork 了 Chromium,并构建了代理浏览器协议(ABP),因为我注意到大多数浏览器代理的失败并不是由于模型对页面的误解。相反,问题在于模型是基于过时的状态进行推理的。
ABP 的设计旨在确保代理在每一步都与浏览器保持同步。在每个操作(点击、输入等)之后,它会冻结 JavaScript 执行和渲染,然后捕获结果状态。它还会编译在该操作循环中发生的显著事件,例如导航、文件选择器、权限提示、警报和下载,并将这些信息连同冻结页面状态的截图一起发送回代理。
结果是,浏览器交互开始更像是一个多模态的聊天循环。代理采取行动,获取一个新的视觉状态和事件的结构化摘要,然后决定接下来该做什么。这与现代大型语言模型(LLMs)的工作方式更为契合。
ABP 有助消除的一些常见浏览器使用失败:
* 在最后一次 Playwright 截图后出现模态窗口,阻塞了代理即将使用的输入
* 动态过滤器导致页面在步骤之间重新布局
* 自动完成下拉菜单打开并覆盖了代理打算点击的元素
* alert() / confirm() 中断了流程
* 下载被触发,但代理没有可靠的方法来知道何时完成
作为证明,使用 opus 4.6 作为驱动的 ABP 在 Online Mind2Web 基准测试中得分为 90.5%。我认为现代 LLM 已经理解网站,它们只需要一个更好的工具来与之互动。欢迎在下面的评论中提问关于架构、fork Chrome 或其他任何问题。
试试这个:`claude mcp add browser -- npx -y agent-browser-protocol --mcp`(文档中有 Codex/OpenCode 的说明)
演示视频: [https://www.loom.com/share/387f6349196f417d8b4b16a5452c3369](https://www.loom.com/share/387f6349196f417d8b4b16a5452c3369)
我在一个订阅上又开始遇到401错误,OAuth似乎在恢复会话方面遇到了困难。只有我这样吗?
我知道,这确实是一个非常发达国家的问题。但在我家,我们总是很难决定看什么。选择太多了!<p>所以我制作了这个工具,旨在为YouTube重现有线电视的体验。它可以在浏览器中运行。只需通过书签小工具快速导入你的订阅。无需账户,无需登录。只需快速在本地导入你的数据。
嘿,HN,
我开发了StreamHouse,这是一个开源流媒体平台,它用直接写入S3的方式替代了Kafka的代理管理存储。目标是:保持相同的语义,降低成本。
它是如何工作的:生产者批量并压缩记录,一个无状态的服务器管理分区路由和元数据(开发环境使用SQLite,生产环境使用PostgreSQL),而数据段直接存储在S3中。消费者通过本地段缓存从S3读取数据。无需管理代理磁盘,也不需要调整复制因子——S3提供了11个9的耐久性,开箱即用。
目前的功能包括:
- 具有批处理、LZ4压缩和偏移量跟踪的生产者API(62K条记录/秒)
- 具有消费者组、自动提交和多分区分发的消费者API(30K+条记录/秒)
- 与Kafka兼容的协议(可与现有的Kafka客户端配合使用)
- REST API、gRPC API、命令行接口和网页用户界面
- Docker Compose设置,可以在5分钟内本地试用
尚未实现的功能:
- 经受考验的生产环境部署(目前只有我一个用户)
- 连接器,供消费者立即连接(例如ClickHouse、Elasticsearch等)
成本模型是我开发这个平台的动力。Kafka的存储成本随着复制因子 × 保留时间 × 数据量而增加。使用S3,每GB每月$0.023,存储1TB事件的成本约为$23每月,而在代理EBS卷上则需要数百美元。
该项目使用Rust编写,目前有15个crate,采用Apache 2.0许可证。
GitHub链接:[https://github.com/gbram1/streamhouse](https://github.com/gbram1/streamhouse)
关于它是如何工作的博客在我的主网站上:[https://streamhouse.app/how-it-works](https://streamhouse.app/how-it-works)
欢迎提问有关架构、权衡或我在构建这个项目中学到的知识。
PayrollEngine将业务逻辑建模为可组合的法规层,而不是硬编码工资规则——使用版本化的JSON/YAML配置和运行时C#(Roslyn)。这些层的继承和覆盖类似于CSS的级联:国家法律 → 行业 → 公司。
v0.10.0-beta.1在本周早些时候发布,并伴随新的文档网站(payrollengine.org)。
最有趣的新示例是:MultiCountryPayroll——德国/法国/荷兰共享一个基础法规,且有一名员工的合同在期间跨越国界。该法规在没有任何特定于某个国家的代码路径的情况下处理这一情况。
其他新增功能:
- 支付运行预览:内存计算,无需数据库写入
- 异步支付运行作业:HTTP 202,有限队列,完成时的Webhook
- 并行员工处理,按员工状态隔离
技术栈:.NET 10,SQL Server,Docker,Roslyn
GitHub: [https://github.com/Payroll-Engine/PayrollEngine](https://github.com/Payroll-Engine/PayrollEngine)
文档: [https://payrollengine.org](https://payrollengine.org)
嗨,HN。本周,Meta 收购了 Moltbook(代理社交网络),OpenAI 收购了 Promptfoo(代理测试),而 Mandiant 的创始人为 Armadin 筹集了 1.9 亿美元。显然,代理基础设施是未来的发展方向。
我们开发了 AgentSign——一个针对 AI 代理的零信任引擎。问题在于:代理在没有任何身份基础设施的情况下运行。Moltbook 因为虚假帖子而迅速走红,因为没有对发布者的身份进行任何验证。
AgentSign 为每个代理提供了一个加密身份证书,将每个操作签名到执行链中,并在任何操作执行之前进行运行时代码验证。还有一个 MCP 信任层用于代理与 MCP 服务器之间的验证,以及一个由 Stripe 支持的信任网关用于代理支付。
系统包括五个子系统:身份证书、执行链验证、运行时代码验证、输出篡改检测和加密信任评分。
免费且开源。开发于伦敦。
SDK: [https://github.com/razashariff/agentsign-sdk](https://github.com/razashariff/agentsign-sdk)
欢迎提问。