4作者: a24venka1 天前原帖
大家好!我们是来自 Spine AI 的 Ashwin 和 Akshay(<a href="https://www.getspine.ai">https://www.getspine.ai</a>)。 Spine Swarm 是一个多智能体系统,能够在无限的视觉画布上完成复杂的非编码项目:竞争分析、财务建模、SEO审计、投资提案、互动原型等等。 这是 Spine Swarm 实际操作的视频:<a href="https://youtu.be/R_2-ggpZz0Q" rel="nofollow">https://youtu.be/R_2-ggpZz0Q</a> 我们已经是朋友超过13年了。我们在 NTU 的北脊(North Spine)校区一起上了第一门机器学习课程,这也是我们名字的来源。我们在 S23 参加了 YC,并花了大约三年时间在多个产品迭代中构建 Spine。 核心理念是:聊天并不是进行复杂 AI 工作的正确界面。它是一个线性线程,而真实项目并不是线性的。确实,你可以要求聊天机器人参考线程中早期的财务模型,或者一起进行研究和市场规模分析,但你是在隐含地信任模型来处理这些上下文。你无法看到它是如何连接各个部分的,也无法在不重新运行所有内容的情况下纠正某一步,更无法并行探索两种策略。ChatGPT 是一个引起轰动的演示,而聊天作为默认界面存在,并不是因为它是正确的抽象。我们认为人类和智能体需要一个真实的工作空间,在这个空间中,工作的结构是明确且可控的,而不是隐藏在上下文窗口中。 因此,我们构建了一个无限的视觉画布,让你可以用块而不是线程进行思考。每个块都是我们在 AI 模型之上的抽象。针对 LLM 调用、图像生成、网页浏览、应用程序、幻灯片、电子表格等有专门的块类型。可以把它们想象成 AI 工作流程的乐高积木:每个块都有特定的功能,但可以以多种方式组合在一起。你可以将任何块连接到任何其他块,这种连接确保了上下文的传递,无论块的类型如何。整个系统是模型无关的,因此在单一工作流程中,你可以从 OpenAI LLM 调用,转到像 Nano Banana Pro 的图像生成模式,再到 Claude 生成的互动应用,每个块使用最合适的模型。多个块可以从同一输入分支出来,以不同的方式用不同的模型进行分析,然后将它们的输出传递给下游块进行结果综合。 画布的第一个版本是完全手动的。用户输入提示,选择模型,自己运行块并建立连接。这种方式与创始人和产品经理产生了共鸣,因为他们可以从同一个起点向不同方向分支:在一个分支中生成产品原型,在另一个分支中生成 PRD,在第三个分支中进行竞争评估,在第四个分支中制作投资提案,所有分支共享相同的上游上下文。但新用户不想学习这个界面。他们不断要求我们构建一个聊天层,代表他们生成和连接块,以复制我们使用工具的方式。因此,我们构建了这个功能,并在此过程中发现了一个意想不到的事情:智能体能够自主运行数小时,生成完整的交付物。事实证明,智能体可以通过将工作委派给块并在画布上存储中间上下文,而不是将所有内容都放在单一的上下文窗口中,从而更长时间地运行并保持上下文窗口的清晰。 现在它的工作方式是这样的。当你提交一个任务时,一个中央协调器将其分解为子任务,并将每个子任务委派给专门的角色智能体。这些智能体在画布块上操作,可以覆盖默认设置,主要是模型和提示,以适应每个子任务。智能体为每个块选择最佳模型,有时会用多个模型运行同一个块以比较和综合输出。当它们的子任务没有依赖关系时,多个智能体可以并行工作,下游智能体会自动接收来自上游工作的上下文。用户无需配置任何内容。你还可以同时派发多个任务,系统会将依赖任务排队,或立即启动独立任务。 智能体默认并不是完全自主的。任何智能体都可以暂停执行,并在继续之前向用户请求澄清或反馈,这样可以在关键时刻保持人类参与。一旦智能体生成了输出,你可以在画布上选择一部分块,并通过聊天对其进行迭代,而无需重新运行整个工作流程。 画布为智能体提供了文件系统和消息传递所没有的东西:一个持久的、结构化的整个项目表示,任何智能体都可以在任何时候读取和参与。在典型的多智能体系统中,随着上下文在智能体之间传递,信息会逐渐退化。画布解决了这个问题,因为智能体将中间结果存储在块中,而不是试图将所有内容保存在内存中,并且它们留下了明确的结构化交接,旨在高效地被链中下一个智能体消费。每一步也是完全可审计的,因此你可以准确追踪每个智能体是如何得出结论的。 我们进行了基准测试以验证我们的观察。在谷歌 DeepMind 的 DeepSearchQA 上,这是一组涵盖17个领域的900个问题,每个问题都结构化为因果链,其中每个步骤依赖于完成前一个步骤,Spine Swarm 在整个数据集上得分87.6%,且没有任何人工干预。对于基准测试,我们使用了与问题相关的块类型子集(LLM 调用、网页浏览、表格),并移除了文档、电子表格和幻灯片生成等不相关的类型。我们还禁用了人工澄清,因此智能体完全独立运行。这些智能体不仅可审计,而且处于最前沿。审计的过程还揭示了在旧基准(GAIA Level 3)中的实际错误,即期望答案错误或模糊的案例,这在黑箱流程中是无法发现的。我们在完整的报告中详细介绍了方法论、架构和基准错误:<a href="https://blog.getspine.ai/spine-swarm-hits-1-on-gaia-level-3-and-google-deepmind-deepsearchqa">https://blog.getspine.ai/spine-swarm-hits-1-on-gaia-level-3-...</a> 基准测试测量封闭式问题的准确性。事实证明,相同的架构也能在最小监督下产生更好的开放式输出,如幻灯片、报告和原型。我们看到早期用户分成了两派:一些人观察智能体工作并在流程中跳入重新引导,另一些人则排队一个任务,回来时看到完成的交付物。这两种方式都有效,因为画布保留了完整的工作链,因此你可以随时进行审计或干预。 一个不错的首个任务是:给它你的网站 URL,并请求进行完整的 SEO 分析、竞争格局和优先级增长路线图,以及幻灯片。你会看到多个智能体同时在画布上运作。人们还利用它来制作融资投资提案,包括财务模型、从截图和 PRD 中原型化功能、竞争分析报告以及从多个角度研究主题并生成结构化材料的深度学习计划,以便进一步探索。 定价是基于使用量的积分,与块的使用和所用的基础模型相关。智能体通常比手动工作流程使用更多的积分,因为它们经过调优以获得最佳结果,这意味着它们选择最佳块并做更多工作。详细信息请见:<a href="https://www.getspine.ai/pricing">https://www.getspine.ai/pricing</a>。有一个免费层,还有一个诚实的警告:我们将其设计为让你尝试一个真实的任务,但任务的复杂性各不相同。如果你在没有充分机会探索之前用完了积分,请通过 founders@getspine.ai 给我们发邮件,我们会与你合作。 我们非常希望听到你对体验的反馈:哪些有效,哪些无效,以及哪里存在不足。我们也很好奇这里的其他人如何处理复杂的多步骤 AI 工作,除了编码之外。你们使用什么工具,最先出现的问题是什么?我们会在评论区待一整天。
2作者: raunaqvaisoha1 天前原帖
在Opus 4.6之后,LLM(大型语言模型)在使用bash、代码、本地文件和工具方面表现得更为出色。 因此,我不断回到一个简单的问题:如果一个模型能够合理地使用计算机,为什么我不能直接把我的经纪账户、策略交给它,让它进行交易呢? 我的结论是,障碍并不是模型的能力本身,而是围绕模型的系统。 一个原始的LLM几乎立即在几个实际问题上崩溃: • 会话之间没有持久的操作记忆 • 没有可靠的记录来说明它做了什么以及为什么 • 在资金转移之前没有严格的审批边界 • 如果每次检查都需要调用LLM,就没有便宜的、始终在线的监控 • 除非限制、权限或工作流程规则在模型之外,否则无法可靠地执行这些限制 所以,问题并不在于“模型能否调用经纪API?”而在于交易需要一个框架。 我和我的朋友为此构建了一个名为Vibe Trade的系统。它是开源的,采用MIT许可证,目前在本地运行,并连接到Dhan。 基本设计如下: 1. 不可变的交易日志 每个操作在决策时都会记录时间戳、推理和观察到的信号。代理无法在事后重写自己的历史。 2. 严格的审批门 在下任何订单之前,系统会生成一个结构化的审批请求。执行会被阻止,直到用户批准。这一点在代码中强制执行,而不是留给模型的自由裁量。 3. LLM之外的事件循环 市场监控在普通的JavaScript中以定时器的方式处理。价格检查、时间规则和指标阈值每30秒运行一次,而无需调用模型。只有在需要推理时,LLM才会被唤醒。 4. 操作手册/技能文件 策略以markdown文档的形式存在,每次决策时加载作为操作上下文。例如:“复制Nifty防御指数并每周重新平衡。”这为代理提供了一个稳定的工作流程定义,而不是依赖于聊天记录。 让我感到这个系统真实的第一个用例非常平凡:投资组合再平衡。 我曾经制作类似Smallcase的指数复制投资组合,然后忘记按时重新平衡。通过这个设置,我可以一次定义策略,让非LLM层监控条件,并让代理准备待审批的操作。这是我第一次觉得这不再像一个演示,而是变得有用。 一些注意事项: • 用户界面仍然较弱;目前主要是聊天界面 • 目前仅支持Dhan • 目前仅支持本地安装 • 需要Node.js和Anthropic API密钥 代码库:github.com/vibetrade-ai/vibe-trade 我发布这个主要是因为我认为,随着工具使用的改善,会有更多人尝试构建“LLM作为操作员”的系统,而金融领域使失败模式变得非常明显。 我感兴趣的问题是: • 还有哪些框架组件是缺失的,适用于这样的系统? • 你会更信任一个本地系统,还是一个托管的系统? • 你会首先自动化哪些可重复的金融工作流程?
4作者: AbstractH241 天前原帖
现代科技拥有庞大的开源生态系统和巨大的投资者支持的生态系统,但在合作社形式上几乎没有显著的活动。合作社是指个人或小公司共同出资和资源,以利用规模经济,与大型公司竞争,而不是相互竞争。<p>随着人们越来越依赖少数几家巨型公司,这些公司正试图利用其规模提高价格、利润率和利润,这似乎是这个领域日益需要的一种模式。