19作者: waleedlatif17 个月前原帖
嗨,HN!我们是Emir和Waleed,我们正在构建Sim Studio([https://simstudio.ai](https://simstudio.ai)),这是一个开源的拖放式用户界面,用于构建和管理作为有向图的多智能体工作流。您可以定义智能体之间的交互方式,使用工具,并处理复杂的逻辑,如分支、循环、转换和条件执行。 我们的代码库在这里:[https://github.com/simstudioai/sim](https://github.com/simstudioai/sim),文档在这里:[https://docs.simstudio.ai/introduction](https://docs.simstudio.ai/introduction),我们还有一个演示:[https://youtu.be/JlCktXTY8sE?si=uBAf0x-EKxZmT9w4](https://youtu.be/JlCktXTY8sE?si=uBAf0x-EKxZmT9w4)。 使用现有框架构建可靠的多步骤智能体系统通常会迅速变得复杂。在OpenAI的《构建智能体的实用指南》中,他们声称非声明性的方法和单一的多步骤智能体是最佳路径,但根据我们的经验和实验,我们并不赞同。调试这些跨多个智能体调用和工具使用的隐式流程是痛苦的,逻辑或提示的迭代变得缓慢。 我们构建Sim Studio是因为我们相信明确和可视化地定义工作流是构建更可靠和可维护的智能应用的关键。在Sim Studio中,您设计整个架构,包括具有系统提示的智能体模块、多种模型(通过ollama托管和本地使用)、具有细粒度工具使用控制的工具和结构化输出。 我们有许多预构建的集成,您可以将其用作独立模块或作为智能体的工具。所有节点都通过if/else条件块、基于LLM的路由、循环和分支逻辑连接,以支持专业的智能体。 此外,视觉图不仅仅用于原型设计,实际上是可执行的。您可以运行工作流的模拟,1次、10次、100次,以查看修改任何小的系统提示、底层模型或工具调用所带来的变化如何影响工作流的整体性能。 您可以手动触发工作流,将其部署为API并通过HTTP进行交互,或定期调度工作流运行。它们还可以设置为在接收到网络钩子时触发,并作为独立的聊天实例进行部署,可以设置密码或域名保护。 我们内置了细粒度的追踪跨度、日志和可观察性,以便您可以轻松比较和对比不同模型提供者和工具的性能。所有这些功能都能实现更紧密的反馈循环和显著更快的迭代。 到目前为止,用户已经构建了深度研究智能体来检测应用程序欺诈,聊天机器人与他们的内部人力资源文档进行接口,以及智能体来自动化制造设施之间的通信。 Sim Studio采用Apache 2.0许可证,完全开源。 我们对将可视化、以工作流为中心的方法引入智能体开发感到兴奋。我们认为,这使得构建强大、复杂的智能工作流变得更加可及和可靠。我们非常希望听到HN社区的想法!
16作者: axelMI7 个月前原帖
我正在开发一个纯 JavaScript 的 WebGL 图像编辑器,具备特效、滤镜、裁剪和透视校正等功能。我的目标是为社区提供一个开源解决方案,因为不幸的是,大多数类似的应用程序都是闭源的。<p><a href="https://mini2-photo-editor.netlify.app" rel="nofollow">https://mini2-photo-editor.netlify.app</a> 可以试用一下 (<a href="https://github.com/xdadda/mini-photo-editor">https://github.com/xdadda/mini-photo-editor</a>)
22作者: neversettles7 个月前原帖
嘿,HN!我们正在构建一个MCP服务器,旨在通过使用浏览器代理来帮助AI辅助的网页应用开发者测试AI在编辑器中所做的更改是否有效。我们已经在一些场景中进行了测试,比如验证用户界面中的新流程,或检查发送聊天请求是否会触发响应。我们的想法是让你的编码代理不仅能够编写代码,还能评估其所做的是否正确。以下是与Cursor的简短演示:<a href="https://www.youtube.com/watch?v=_AoQK-bwR0w" rel="nofollow">https://www.youtube.com/watch?v=_AoQK-bwR0w</a> 在构建应用时,我们发现AI辅助编码中最难的部分并不是编码本身,而是繁琐的点击测试,以查看功能是否正常。我们厌倦了这个循环:打开应用,点击流程,盯着网络标签,复制控制台错误到编辑器,重复。我们觉得这也应该由AI来辅助。如果你能进行“氛围编码”,那么你也应该能够进行“氛围测试”! 一些代理如Cline和Windsurf有浏览器集成,但Cline(通过Anthropic计算机使用)感觉很慢,只报告控制台日志,而Windsurf的可靠性尚待提高。我们对手动测试感到厌倦,因此决定解决这个问题。 我们的MCP服务器位于你的IDE代理(Cursor/Windsurf/Cline/Continue)和一个基于Playwright的浏览器使用代理之间。它根据IDE代理的指示启动浏览器,导航你的应用,并返回步骤、控制台事件和网络事件,以便IDE代理能够评估应用的状态。 我们代理Browser-use的原始Claude调用,并替换为Gemini Flash 2.0,将每个步骤的延迟从约8秒减少到约3秒。我们还将控制台/网络日志限制在10,000个字符以内,以保持上下文限制,并过滤掉无关的日志(例如,嘈杂的XHR请求)。 最后,浏览器代理输出一个总结,如下所示: ``` http://localhost:5173 的网页评估报告 任务:删除API密钥并评估用户体验 步骤:主页 → 登录 → API密钥 → 创建密钥 → 删除密钥 流程测试成功;用户体验存在问题X、Y、Z... 控制台(8)... 网络(13)... 事件时间线(57)… ``` 这使得编码代理能够识别控制台和网络错误,或在点击过程中遇到的任何问题,并在返回用户之前让编码代理修复这些问题。(在<a href="https://github.com/Operative-Sh/web-eval-agent">README</a>中有一个更长的示例。) 在Cursor / Cline / Windsurf / Claude Desktop(macOS/Linux)中尝试: ``` curl -LSf https://operative.sh/install.sh -o install.sh less -N install.sh # 如果需要,可以检查 bash install.sh # 安装uv + jq + Playwright + 服务器 # 然后在Cursor/Cline/Windsurf/Continue中:使用web_eval_agent工具编写提示 ``` (对于Windows,README中有4行手动安装说明。) 我们接下来想做的事情:暂停/继续OAuth屏幕;保存/加载浏览器身份验证状态;Playwright步骤录制以创建自动化测试和回归测试;通过提供网页版本支持Loveable / v0 / Bolt.new网站。 我们非常希望听到你的反馈,特别是如果你经历过在IDE内部进行更改后,必须手动测试网页应用中发生的更改的痛苦,或者如果你尝试过其他有效的MCP工具。 如果你觉得这对你的工作流程有帮助,请尝试一下:<a href="https://github.com/Operative-Sh/web-eval-agent">https://github.com/Operative-Sh/web-eval-agent</a>。(注意:服务器通过我们的operative.sh代理来处理Gemini令牌。MCP服务器本身是开源的;Anthropic基础URL支持即将推出。包括免费层;重度用户可以选择10美元的计划来抵消我们的模型账单。) 让我们知道你的想法!感谢你的阅读!
3作者: connerruhl7 个月前原帖
我们正在使用自定义模型处理Bluesky的实时数据流(firehose3d.theo.io),将人们讨论的内容聚类为热门话题。这一切都在一台GPU上运行。<p>您还可以在dazzle.fm/stats查看按话题划分的讨论量。