2作者: nyku10 天前原帖
我经常使用大型语言模型(LLMs)来自动化不同的工作流程,其中一些包括浏览网页和收集数据。某个时候,我开始注意到一些让我困扰的事情:浏览器的交互很笨拙,仿佛代理在“看”和理解页面时遇到了困难,因此浪费了很多令牌。对于页面是否真正准备好也是如此。 我开始深入研究,最终在Cursor聊天中直截了当地问了一个问题:“作为一个使用无头浏览器的LLM,我想问你,希望人们构建什么来让你的工作更轻松?” 这个问题取得了效果,因为我扩展了“思考”部分,看到:“用户问了我一个非常有趣的元问题……”之后,它列出了与代理和浏览器交互相关的十大最痛苦的问题。 于是,我开始构建一个浏览器API,返回LLMs实际需要的内容,而不是浏览器返回的内容。 几周后,我们终于完成了。一个专门为帮助LLMs与真实浏览器交互而构建的REST API。 与其读取原始HTML,你将获得Markdown格式、页面地图、短引用(e1, e2)以便点击,而不是CSS选择器,还有一个稳定的标志指示页面是否准备好、每一步的差异、所有交互元素的列表(链接、按钮、输入框)、自动阻塞解除,以及一个小的提取步骤,返回你描述的结构化JSON。 我们提供了Python、TypeScript和Ruby的官方SDK,以及用于Cursor和Claude Desktop的MCP服务器。 非常欢迎任何反馈,尤其是关于API设计的意见。
4作者: daniele_dll10 天前原帖
几个月前,我的电脑完全无法使用,起初我不明白为什么。然而,经过简单检查后,我发现内存已满,交换空间也满了。 在发现Chrome占用了我超过一半的内存后,我查看了Chrome的内存使用情况,结果让我震惊,竟然达到了65GB,这实在是太疯狂了。 (内存是几年前购买的)