返回首页
最新
Roo Code 直接与 Slack 集成,创建一个完整的自主工作流程。在 Slack 中开始讨论,获取可执行的计划,如有需要可修改计划,然后在 Slack 内生成代码。您可以预览更改、推送到 GitHub,并在不离开聊天的情况下运行测试。请观看上方链接的视频,以获取完整的演示。
嗨,HN,我是AJ。
CVAT用户:你们是如何进行质量保证的?在一致性和回归调试方面有什么经验?
我们将CVAT分叉为CVAT-DATAUP,以改善这个循环(提交/审核/接受,数据集/类别洞察,以及开始评估和视觉错误分析)。
我们正在寻找一些早期用户,使用CVAT并与他们密切合作,根据反馈进行迭代。
仓库链接:https://github.com/dataup-io/cvat-dataup
我看到一条推文说,tinygrad 非常出色,以至于你可以用它来制作一个图形库。因此,我开始着手开发一个 gtinygrad,老实说,这让我相信它可以用于真正的研究。JIT + 张量模型最终成为了一种非常好的方式,可以用简单的 Python 表达光传输。所以我重新实现了一些来自 SIGGRAPH 的新研究论文,比如 REstir PG 和 SZ,它们都能正常工作。与复杂的 C++ 代码相比,这只需要 200 行 Python 代码。
我花了一年的时间来解决一个真实的问题:AI翻译的字幕不一致——在正式和非正式之间切换,角色名称在影片中途发生变化,语气随机跳跃。
现有的工具将字幕视为孤立的句子。因此,我构建了一个*多代理系统*,它的工作方式类似于一个真实的翻译团队:“导演”创建整个影片的风格指南,“术语代理”确保术语的一致性,而“翻译者”则利用上下文窗口进行翻译。
这个系统运作良好。我已经用它处理了数百小时的字幕,质量超过了我尝试过的大多数SaaS产品。
老实说,我最初是想构建一个SaaS产品。但让产品被人注意到是很困难的——营销、客户获取、支持。作为一个独立开发者,我没有大公司或风险投资的资源。
与其让这个项目在我的硬盘上沉寂,不如将其开源,让需要的人可以自己部署。至少这样,我花费的时间没有浪费,并且可以帮助一些人。
三个专业代理按顺序工作:
1. 导演代理 - 阅读整个字幕文件并生成风格指南(语气、正式程度、称呼策略)。使用长上下文模型分析完整剧本。
2. 术语代理 - 提取并确保术语的一致性:角色名称(带性别推断的代词)、地点、领域术语。输出可嵌入提示中的Markdown术语表。
3. 翻译者代理 - 使用双向上下文的滑动窗口:
- 参考之前的翻译(以保持连贯性)
- 预览即将到来的句子(以避免拆分错误)
- 严格的格式验证(保持时间、ID、结构)
- 批处理以提高效率
4-6. 审核、润色和时间调整代理计划在2026年第一季度推出。
技术栈:
- .NET 10.0 + Microsoft Agents框架
- Subtitle Edit (libse) 用于解析
- 多种字幕格式(自动检测)
- 紧凑格式以减少令牌使用
- 可配置的LLM端点(兼容OpenAI、Gemini等)
- 模型策略:导演/术语使用长上下文,翻译则采用成本效益高的策略
状态:
[Y]核心管道(步骤1-3)已准备好投入生产并开源
[Y]单语翻译功能正常
[Y]支持双语字幕
步骤4-6预计在2026年第二季度之前完成
计划在2026年5月推出Windows/macOS/Web用户界面