2作者: dtnewman12 天前原帖
我经常在终端中工作,但有时会忘记某个命令(或者根本就不知道)。这是一个简单的工具,可以让你输入想要的内容,提供多个选项,然后自动将你选择的那个放入剪贴板中。
1作者: theonlyt312 天前原帖
嗨,HF,我是Terrell,我们开发了一个开源应用程序,允许开发者创建自己的操作员,前端使用Next.js/React,后端使用Flask。其目的是简化虚拟桌面的启动(如Xfce、VNC)并利用计算机使用模型(如OpenAI的模型)自动化桌面交互。 目前已经有许多很酷的工具可以让你构建类似操作员的体验,但它们通常只自动化网页浏览器的操作,或者不是开源的/启动成本很高。Spongecake允许你自动化桌面交互,并且完全开源,这将帮助: - 希望构建自己计算机使用/操作员体验的开发者 - 希望在缺乏或没有API的桌面应用程序中自动化工作流程的开发者(在供应链和医疗等行业非常常见) - 希望为具有VPN、防火墙等限制的本地环境企业自动化工作流程的开发者(在医疗、金融等行业常见) 技术细节:从技术上讲,这实际上是一个指向后端服务器的网页浏览器,该服务器1)管理启动和运行预配置的Docker容器,2)管理与计算机使用代理的所有通信。[1] 通过启动具有适当端口的Docker容器来处理,以打开VNC查看器(以便查看桌面)、API服务器(在容器上执行代理命令)、Marionette端口(帮助抓取网页)和socat(帮助进行端口转发)。[2] 通过将虚拟机的屏幕截图发送到计算机使用代理,然后通过API服务器将适当的操作(例如,滚动、点击)从代理发送到虚拟机来处理。 我们遇到的一些有趣的技术挑战: - 并发性 - 我们希望能够同时启动N个代理以并行完成任务(尤其考虑到当前计算机使用代理的速度)。这引入了大量的复杂性,因为端口被占用的可能性显著增加。 - 滚动问题 - 该模型在判断何时滚动时表现不佳,会在非常长的页面上滚动很多次。为了解决这个问题,我们启动了一个Marionette服务器,并向代理提供了一个工具,用于提取网站的DOM。这样,代理可以提取网站的DOM,而不是一直滚动到页面底部,从而利用这些信息找到正确的答案。 接下来是什么?我们正在努力在用户界面中添加支持,以便在自己的机器上本地运行,并启动其他桌面环境,如Windows和MacOS。我们还开始着手集成Anthropic的计算机使用模型。我们可以构建许多其他功能,但首先想把这个发布出来,看看其他人希望什么。 非常期待你的想法和反馈。到目前为止,参与这个项目非常有趣,希望其他人也能觉得它和我一样酷 :) 这是克隆链接:<a href="https://github.com/aditya-nadkarni/spongecake">https://github.com/aditya-nadkarni/spongecake</a>