1作者: justvugg3 天前原帖
大家好, 我在PolyMCP中添加了一个技能系统,以解决大规模MCP服务器常见的问题。 当工具数量增加时: - 代理在加载原始模式时消耗令牌 - 工具发现变得嘈杂 - 不同的代理需要不同子集的工具 - 编排逻辑泄漏到提示中 技能是经过整理的、结构化的MCP工具集,并附有文档。代理只加载它们所需的技能,而不是完整的工具模式。 技能是通过从MCP服务器发现工具并自动分类生成的。 示例:从Playwright MCP服务器生成技能: ``` polymcp skills generate --servers "npx @playwright/mcp@latest" ``` HTTP MCP服务器: ``` polymcp skills generate \ --servers "http://localhost:8000/mcp" \ --output ./mcp_skills ``` 标准输入MCP服务器: ``` polymcp skills generate \ --stdio \ --servers "npx -y @playwright/mcp@latest" \ --output ./mcp_skills ``` 在代理中启用技能: ```python agent = UnifiedPolyAgent( llm_provider=llm, skills_enabled=True, skills_dir="./mcp_skills", ) ``` 好处: - 更小的代理上下文 - 可扩展到大型工具集 - 代理之间可重用的能力 - 工具访问控制无需更改提示 - 适用于HTTP和标准输入MCP服务器 仓库链接: [https://github.com/poly-mcp/Polymcp](https://github.com/poly-mcp/Polymcp)
2作者: mdnahas3 天前原帖
现在,越来越多的人使用智能手机录制同一个事件的视频。我在想Pretti和Good的案件。我听说过高斯溅射技术,它可以从多个摄像头构建3D场景。这种技术在分析这些事件时是否有用?如果有,是否有人能够开发一个易于使用的开源工具? 我推测,这种技术可能有以下几方面的用处:(1) 同步视频,(2) 获取比单个摄像头更多的细节,(3) 跟踪多个摄像头看到的物体(比如Pretti的枪),以及(4) 识别AI生成的视频。 对我来说,最后一点最为重要。AI生成或修改事件视频的风险是存在的。在我看来,从N个视频中应用高斯溅射技术,有可能检测到第N+1个视频是否与场景一致或不一致。 这可能吗?
1作者: expyth0n3 天前原帖
问题:我想使用我的工具,你想使用你的工具,而我们雇佣的承包商又使用另一套工具。这给所有参与者带来了不必要的摩擦。 Ideon 是一个自托管的可视化工作空间,旨在弥合这一差距。它并不替代你现有的技术栈(如 GitHub、Figma、Notion 等),而是提供一个共享的上下文,让所有这些元素在一个无限的画布上共存。 我们之所以构建这个工具,是因为项目常常因碎片化而失败——代码在一个地方,决策在聊天记录中,视觉效果在设计工具里。Ideon 旨在让所有参与者都能“心智上导航”项目。 主要功能: - 可视化模块:空间化组织代码库、笔记、链接、文件和人员。 - 状态历史:通过工作区快照跟踪决策的演变。 - 多人协作:实时协作。 - 自托管:基于 Docker,采用 AGPLv3 许可证。 技术栈:Next.js、PostgreSQL、Docker。 期待听到你对这个方法的反馈!
4作者: eshaangulati3 天前原帖
你好!我是 Eshaan,我正在构建 Ourguide——一个屏幕上的任务指导系统,当你需要帮助时,它可以逐步指导你点击哪里。 我开始构建这个系统是因为每当我不知道如何在电脑上做某件事情时,我总是在聊天机器人和应用程序之间不断切换,粘贴截图,并问“接下来我该做什么?”Ourguide 通过两种模式解决了这个问题。在指导模式下,应用程序会覆盖你的屏幕,并突出显示下一个需要点击的具体元素,消除了你离开当前窗口的需要。还有询问模式,这是一个集成视觉的聊天功能,可以捕捉你的屏幕上下文——你可以随时开启或关闭——这样你就可以问“我该如何修复这个错误?”而无需解释“这个”是什么。 这是一个跨操作系统的 Electron 应用,基于视觉,并不局限于浏览器。 确定如何向用户展示点击位置是这个过程最困难的部分。我最初用 2300 张截图训练了一个计算机视觉模型,以识别和分割屏幕上的所有 UI 元素,并使用 VLM 找到正确的图标进行高亮。虽然这个方法效果非常好——比像 UI Tars 这样的最先进的基础模型更好——但延迟实在太高了。我很快会将这个 CV+VLM 流水线开源,但目前我采用了一个更简单的实现,达到了小于 1 秒的延迟。 你可能会问:如果我可以告诉你点击哪里,为什么我不能直接点击呢?在我在帕洛阿尔托工作期间尝试构建计算机使用代理时,我遇到了当今计算机使用模型的核心限制,基准测试徘徊在 50% 中间(OSWorld)。VLM 通常知道该做什么,但不知道它的样子;没有可靠的视觉基础,代理会误点击并停滞。因此,我构建了计算机使用——没有“使用”。它提供了代理的视觉基础,但保持人类在环中进行实际执行,以防止误点击。 我个人使用它来处理 AWS 控制台的“寻宝”用户界面,比如创建具有特定 CORS 规则的公共 S3 存储桶。它在处理非技术性任务时也出奇地有帮助,比如在 Gradescope 或 Spotify 中导航一些晦涩的设置。当你卡住或不知道该做什么时,Ourguide 真的能处理任何任务。 你可以在这里下载并测试 Ourguide: [https://ourguide.ai/downloads](https://ourguide.ai/downloads) 这个项目仍然处于早期阶段,我非常希望听到你对它的反馈,包括它的不足之处、你认为它表现良好的地方,以及你认为 Ourguide 最有帮助的具体领域。
2作者: SilasYee3 天前原帖
阿里巴巴正式推出了Qwen3-Max-Thinking,这是一款万亿参数的MoE旗舰级大语言模型,预训练于36万亿个标记——是Qwen 2.5语料库的两倍——并且在19个权威基准测试中,已经与GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等顶级模型相匹敌或超越。其两个核心技术突破真正使其脱颖而出。 首先是自适应工具调用:无需手动提示,它能够根据任务需求自主调用搜索引擎、记忆工具和代码解释器。这减少了幻觉现象并提升了实时问题解决能力;例如,编码任务会触发自动错误修正循环,而研究任务则将搜索与上下文综合结合。其次是测试时扩展(TTS):通过迭代洞察来优化推理,超越了标准并行采样,在关键基准测试中取得了可测量的提升——GPQA从90.3提升至92.8,LiveCodeBench v6从88.0跃升至91.4,而IMO-AnswerBench则从89.5上升至91.5。 值得注意的是,其预览版本在AIME 25和HMMT 25等艰难的数学竞赛中甚至达到了100%的准确率。该模型在网页和桌面演示中运行流畅,其API已准备好投入生产,并具备可调的思维预算(默认最高可达80K个标记),以平衡深度和速度。这不仅仅是一次增量更新——这是一次飞跃,缩小了现实世界学术和工程任务中推理与工具集成的差距。 了解更多信息,请访问:https://chat.qwen.ai