2作者: seanlf大约 13 小时前原帖
一次运行中出现42个验证错误。Claude在道歉而不是编写HTML。OAuth令牌在摘要处理中间过期。<p>然后我修复了约束条件。八天内,零失败,零干预。<p>秘密不在于更好的提示……而在于将大型语言模型(LLM)视为一个受限的函数:使用模式验证的工具调用,拒绝格式错误的输出并强制重试,采用两次处理架构将编辑判断与格式化分开,以及无聊的开发运维(重试逻辑、速率限制、结构化日志记录)。<p>Claude的调用大约占2000行系统中的30行。大部分工作都是围绕它的其他部分。<p><a href="https://seanfloyd.dev/blog/llm-reliability" rel="nofollow">https://seanfloyd.dev/blog/llm-reliability</a> <a href="https://github.com/SeanLF/claude-rss-news-digest" rel="nofollow">https://github.com/SeanLF/claude-rss-news-digest</a>
2作者: svij137大约 13 小时前原帖
我是创始人。我创建了NEO,这是一个专门为人工智能(AI)和机器学习(ML)工程工作流程设计的AI代理。之前我在现有工具上屡屡碰壁:这些工具适用于短期、线性的任务,但一旦工作流程变得长期、状态驱动和反馈驱动时,它们就会崩溃。 在实际的机器学习工作中,你不仅仅是生成代码然后就走。你需要探索数据、训练模型、评估结果、调整假设、重新运行实验、比较指标、生成文档并进行迭代;这一过程往往持续数小时或数天。大多数现代编码代理已经超越了单一的提示。它们可以规划步骤、编写文件、运行命令并对错误做出反应。 问题在于,当机器学习工作流程变得长期且反馈密集时,仍然会出现崩溃。训练任务、评估、重试、指标比较和部分失败仍然被视为短暂的副作用,而不是持久的状态。一旦工作流程持续数小时,涉及多个实验或迭代评估,你要么一直监控代理,要么重启大部分过程。反馈确实存在,但系统无法可靠地从中恢复。 NEO试图以实际发生的方式来建模机器学习工作。它是一个执行端到端机器学习工作流程的AI代理,而不仅仅是代码生成。工作被分解为明确的执行步骤,包含状态、检查点和中间结果。来自指标、评估或失败的反馈直接输入到下一步,而不是强迫进行全面重启。你可以暂停运行,检查发生了什么,调整假设,然后从中断的地方继续。 这里有一个例子供你参考:你可以要求NEO探索一个数据集,训练几个基线模型,比较它们的性能,并生成图表和简短报告。NEO会加载数据,进行探索性数据分析(EDA),训练模型,评估它们,注意到如果某个模型表现不佳或失败,进行调整并继续。如果训练需要一个小时,而其中一个模型在45分钟时崩溃,你并不需要重新开始。NEO会检查故障,修复它,然后继续。 扩展文档:<a href="https://docs.heyneo.so/#/vscode" rel="nofollow">https://docs.heyneo.so/#/vscode</a> 欢迎随时询问有关NEO的问题。
2作者: karamalaskar大约 14 小时前原帖
嘿,HN, 我想分享一个我正在开发的项目,叫做 Convoxa。它是一个原生 iOS 的转录/总结工具。我有两个主要目标:保持高效和保护隐私。 技术栈 100% Swift 和 SwiftUI:没有繁重的跨平台封装或冗余的依赖。 二进制大小:最终构建的大小仅为 4.8 MB。 转录:使用苹果最新的语音 API,以实现最大程度的隐私和效率。 挑战:绕过 4K 上下文限制 最大的技术难题是处理苹果的基础模型。默认的上下文窗口限制为 4096 个标记,这对于超过 10 分钟的会议记录几乎没有用处。 我最终构建了一种递归分块方法,以“喂养”模型长文本数据,而不丢失对话的全局上下文。我使用滑动窗口的方法,每个块的总结为下一个块提供信息,确保最终输出在块之间的接缝处不会出现“幻觉”。现在它在支持的硬件上足够稳定,可以处理长音频,同时完全在设备上进行处理。 隐私与 AI 模式 设备端:需要苹果智能 - 完全本地处理。 云端:提供智能洞察的推理(零数据保留)。 我目前处于预售阶段(将于 2 月 3 日发布),非常希望能从这个社区获得一些关于性能和分块逻辑的反馈。 App Store: [https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446](https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446)