返回首页
最新
嗨,HN,
我最近开始维护我的开源项目,对此感到好奇。
我想了解是什么因素促使人们决定参与特定项目的贡献——而不是那些大而知名的项目。
为了提供一些背景信息:我尝试做了一些“显而易见”的事情——撰写清晰的README,保持项目范围集中,添加测试和持续集成,并将一些问题标记为适合初学者。
然而,我仍然觉得在使用开源工具和迈出贡献这一步之间存在很大的差距。
我也尝试在这里发布相关内容,但感觉人们并不太喜欢自我宣传——或者也许我只是做错了。
你之前参与过开源项目吗?你是如何找到自己贡献的项目的?
嗨,HN,我是Andrew,Zencoder的创始人。
在构建我们的IDE扩展和云代理时,我们遇到了许多人在复杂代码库中使用编码代理时可能面临的相同问题:代理陷入循环,反复道歉,浪费时间。
我们尝试通过脚本来管理这一问题,但在终端窗口之间切换和复制粘贴提示的过程非常痛苦。因此,我们开发了Zenflow,这是一款免费的桌面工具,用于协调AI编码工作流程。
它解决了我们在标准聊天界面中缺失的一些功能:
跨模型验证:您可以让Codex审核Claude的代码,或者将它们并行运行,以查看哪个模型在特定上下文中表现更好。
并行执行:同时对一个待办事项运行五种不同的方法——将“人类参与”与简单任务的“YOLO”运行混合。
动态工作流程:通过简单的.md文件配置。代理可以根据当前问题动态“重构”工作流程的下一步。
跨所有工作负载的项目列表/看板视图。
我们在构建这个工具时学到的东西:
为了调整Zenflow,我们在公共基准(SWE-Bench-*、T-Bench)和私有数据集上进行了100多次实验。有两个主要的收获可能会引起这个社区的兴趣:
基准饱和:模型在所有版本的SWE-Bench(甚至是Pro)上逐渐过拟合。我们发现公共结果与私有数据集上的表现有显著差异。如果您正在构建工作流程,您不能依赖公共基准。
“金发姑娘”工作流程:在自主模式下,复杂的多步骤过程往往会放大错误而不是修复它们。庞大而复杂的提示模板在纸面上看起来不错,但在实践中却失败了。最可靠的设置落在一个狭窄的“金发姑娘”区域,恰到好处的结构而不至于过度协调。
该应用程序免费使用,支持Claude Code、Codex、Gemini和Zencoder。
我们已经在内部大量使用这个工具,但我很想听听您对默认工作流程的看法,以及它们是否符合您对代理编码的思维模型。
下载链接: [https://zencoder.ai/zenflow](https://zencoder.ai/zenflow)
YT视频链接: [https://www.youtube.com/watch?v=67Ai-klT-B8](https://www.youtube.com/watch?v=67Ai-klT-B8)