返回首页
最新
嗨,HN!我开发了一个名为Junco的本地编码代理,旨在探索您在Mac上已经拥有的AI(Apple Intelligence)可以实现的可能性。
Junco是一个约9MB的Mach-O二进制文件,完全用Swift编写,使用了LanguageModelSession API。对我来说,这主要是一个探索和学习的练习,但看到可能实现的功能也令人兴奋。一个明显的模式浮现出来:确定性的支架对于引导小模型至关重要。而Claude Code可以将任务分解推迟到Opus 4.6,但小模型需要更多的手把手指导。
在我探索的所有技术中,编译-验证-修复(CVF)循环显然是一个赢家。即使我只是直接提示AFM,我也始终知道我需要一些自我修复机制,因为Apple Foundation Model(AFM)并不是为编码而设计的。当它编写代码时,代码的缩进常常很奇怪,并且充满了小的语法问题。
我最初的目标是构建一个通用的编码代理,但考虑到AFM并没有针对编码进行调优,我很快意识到这个范围是行不通的,因此我专注于Swift。XCode随附的API头文件也有助于实现本地API签名发现,因为该模型缺乏最新的世界知识(知识截止日期大约在2024年中)。
因此,我不建议您在近期内将Junco用于生产工作。在尝试之前,请确保您已提交任何更改。但从概念上讲,包含所有功能的本地编码代理确实展现了真实的潜力。
Miro 是一款适用于 Windows 和 Linux(以及 macOS)的原生 PDF 查看器,基于 iced 和 mupdf-rs 开发。你可能还记得我那篇标题略显激进的文章《我讨厌 Acrobat》(<a href="https://news.ycombinator.com/item?id=45598776">https://news.ycombinator.com/item?id=45598776</a>)。
无论如何,从那时起,我在许多热心贡献者的帮助下发布了两个全新版本。最近新增了一个演示模式,可以隐藏用户界面,并增加了全屏模式的切换功能。
代码可以在这里找到:<a href="https://github.com/vincent-uden/miro" rel="nofollow">https://github.com/vincent-uden/miro</a>
大家好!我们是来自Relvy AI的Bharath和Simranjit(<a href="https://www.relvy.ai">https://www.relvy.ai</a>)。Relvy为软件工程团队自动化值班运行手册。它是一个配备了分析遥测数据和代码工具的AI代理,能够帮助团队在几分钟内调试和解决生产问题。这里有一个视频:[[[<a href="https://www.youtube.com/watch?v=BXr4_XlWXc0" rel="nofollow">https://www.youtube.com/watch?v=BXr4_XlWXc0</a>]]]<p>许多团队以某种形式使用AI来减轻值班负担。你可能正在将日志粘贴到Cursor中,或者使用Claude Code与Datadog的MCP服务器来帮助调试。我们观察到,自主根本原因分析对AI来说是一个困难的问题。这在基准测试中得到了体现——Claude Opus 4.6在OpenRCA数据集上的准确率仅为36%,而在编码任务中则表现更好。<p>造成这种情况的主要原因有三个:(1)遥测数据的体量可能会淹没模型,产生噪音;(2)数据解释/推理依赖于企业上下文;(3)值班是一个时间紧迫、高风险的问题,AI在调查时间内几乎没有探索的空间。导致用户走上错误路径的错误是很难被宽恕的。<p>在Relvy,我们通过构建专门的遥测数据分析工具来解决这些问题。我们的工具可以从密集的时间序列数据中检测异常和识别问题片段,进行日志模式搜索,并推理跨度树,所有这些都不会使代理上下文过载。<p>围绕运行手册锚定代理可以减少代理的探索性,更多地反映出经验丰富的工程师会采取的最有用的步骤。这导致分析速度更快,工程师在审查和理解AI所做的工作时的认知负担更轻。<p>工作原理:Relvy通过docker-compose(或通过helm charts,或在我们的云上注册)安装在本地机器上,连接你的技术栈(可观察性和代码),创建你的第一个运行手册,并让Relvy调查最近的警报。<p>每次调查都以笔记本的形式呈现在我们的网页用户界面中,配有数据可视化,帮助工程师验证并建立与AI的信任。从此,Relvy可以配置为自动响应来自Slack的警报。<p>Relvy自动化的一些示例运行手册步骤包括:- 检查某个仪表板,查看错误是否仅限于特定分片。- 检查APM页面是否有吞吐量激增,如果有,是来自几个IP吗?- 检查最近的提交,看看这个端点是否有任何变化。<p>你还可以配置Relvy可以运行的AWS CLI命令,以自动化缓解措施,并需要人工批准。<p>关于我们的简要介绍——我们在2024年秋季参加了YC。我们开始时尝试使用小型语言模型进行持续日志监控——那太慢了。随后我们深入投资于有效解决根本原因分析,我们今天的产品是与早期客户合作约一年工作的结果。<p>今天就来试试我们吧。我们很乐意听取反馈,或者了解你们公司是如何应对值班负担的。感谢任何评论或建议!
完全开源,基于Cline的硬分叉。在GitHub页面上进行了全面评估,比较了7个代理(Cline、Kilo、Ohmypi、Opencode、Pimono、Roo、Dirac)在8个中等复杂度任务上的表现。每个任务、每个差异以及正确性和成本信息均在GitHub上提供。
Dirac的成本比其他6个代理的平均成本低64.8%。