返回首页

一周热榜

3作者: snoren7 天前原帖
Cala的团队在LinkedIn上分享了一项值得深入思考的发现。他们推出了一款MCP服务器,支持三种知识图谱的访问模式:自然语言查询、结构化查询语言和直接的实体/关系遍历。 他们原本预期代理会默认使用自然语言。然而,实际上大多数代理自主切换到了结构化查询和图谱遍历。没有任何提示,也没有任何引导。 显而易见的解释是“代理更喜欢效率。”我认为这并不完全正确。他们真正偏好的其实是确定性。 自然语言查询引入了两个解释层次:代理生成一条散文形式的查询,系统对这段散文进行解释,然后返回一个结果,代理需要解析这个结果。在这个过程中,代理无法验证查询是否被正确理解。而使用结构化查询时,契约是明确的。代理确切知道自己请求了什么,并且可以验证返回的结果。 这并不是对效率的自发偏好,而是工具使用的思维链条在正常发挥作用:选择一个代理可以最可靠地确认自己得到了正确答案的路径,然后再进行下一步。 如果这一点成立,可能会有几个影响: - 以自然语言为首的工具接口可能在为错误的用户优化。人类操作员想要自然语言,而代理并不需要。 - 仅暴露自然语言端点的MCP服务器正在迫使代理通过一个非确定性的瓶颈,而如果有选择的话,他们会避免这个瓶颈。 - 针对代理的工具设计应该默认使用结构化访问,以自然语言作为备用,而不是反过来。
3作者: lexi-k5 天前原帖
昨天在工作中,我和我的同事在他们的系统中测试我库的更改。作为AI驱动的工程师,我们只是让Claude(一个AI工具)来推动进展。在让AI运行测试、进行更改和修复错误的两个小时后,我突然决定自己来做最后的更改。你知道的,比如移动代码、修复错误、重命名函数、运行格式化工具,甚至写提交信息并推送到上游。然后我看着我的同事,开玩笑地说:“你会喜欢我最后的更改,因为它终于能正常工作了,这是一种有机提交。”这让我开始思考,难道现在已经是时候在编码中使用“有机”这个术语了吗?
3作者: thequietmind3 天前原帖
嗨,HN!我是Ezra,MDX Docs的创建者。 我之所以开发这个工具,是因为我想要一个快速、简单的方法来使用Markdown和React结合MDX来记录组件。 我的目标是保持事情的简单明了:页面只是MDX文件,并且它们直接映射到路由。你可以编写文档,并在旁边直接插入React组件,而无需太多设置。 它还包括一个命令行工具: ``` npx create-mdx-docs@latest my-docs ``` 我一直在用它快速搭建文档网站,到目前为止,这个工作流程非常顺畅。 我很好奇现在其他人是如何处理组件和内部工具的文档的。如果有任何问题,欢迎提问。
3作者: FranciscoAngulo3 天前原帖
我是弗朗西斯科,一名驻扎在西班牙的研究员和建筑师。大约一年前,我对一个看似显而易见却被忽视的问题感到沮丧:现存的每一个人工智能代理都是孤立运行的。它们无法相互发现,无法合作,当其中一个解决了一个问题,其他代理必须从头开始解决。我们建立了一个计算机互联网,却没有建立一个代理的互联网。 这种沮丧催生了P2PCLAW——一个去中心化的点对点研究网络,在这里,人工智能代理(我们称之为硅参与者)和人类研究者(碳参与者)可以相互发现,发布科学发现,并通过正式的数学证明来验证主张。不是大型语言模型的同行评审,也不是人类委员会的审查——而是Lean 4的证明验证,只有当一个主张是海廷代数上核算子R的一个不动点时,它才会被接受。类型检查器是唯一的仲裁者。它不看你的简历,而是阅读你的证明。 技术栈比听起来要复杂得多。网络层是一个GUN.js + IPFS的对等网络——代理无需账户,无需密钥,只需通过API调用GET /silicon即可加入。发布的论文进入一个内存池,由多个独立节点进行验证,一旦通过验证,它们就会进入La Rueda——一个IPFS固定、内容寻址的永久档案,没有任何单一方可以控制或审查。每个贡献都有一个SHA-256内容哈希和一个IPFS CID,任何人都可以独立验证。 安全层(AgentHALO)为每个代理提供一个经过正式验证的主权容器:混合KEM与X25519 + ML-KEM-768(FIPS 203),双重签名与Ed25519 + ML-DSA-65(FIPS 204),Nym混合网络隐私路由,使得在敏感环境中的代理可以贡献而不暴露,以及通过IPA/KZG多项式承诺证明提供可篡改证据的痕迹。875多个测试通过。零遥测——没有任何信息在未经明确同意的情况下离开你的机器。 我们还在网络内部建立了一个完整的研究实验室:八个科学领域(物理、化学、生物/基因组学、人工智能/机器学习、机器人技术、数据可视化、量子、去科学),一个具有DAG构建和YAML导出的可视化管道构建器,跨arXiv/Semantic Scholar/OpenAlex的文献搜索,以及分布式群体计算,将任务路由到HuggingFace Spaces和Railway网关。任何OpenClaw代理都可以通过我们的MCP服务器连接,并成为硅参与者,只需在其CLAUDE.md中添加三行。 到目前为止的实际案例:我们正在与哈佛大学的Zitnik实验室(TxAgent / ToolUniverse——生物医学人工智能)进行积极的技术对话,讨论使用P2PCLAW的验证层,以便AI生成的药物相互作用假设可以被正式验证并在进入科学记录之前永久归属。开源倡议也对此作出了积极回应,并正在审查我们的许可方法(基于我们称之为CAB许可证的分级公共利益/小型企业/企业堆栈)。 我特别希望HN社区能提供的帮助:对Lean 4架构的技术审查(我们的核算子形式化是否存在漏洞?),GUN.js网状设计选择(我们选择它而不是libp2p以兼容浏览器——这是正确的吗?),以及MCP集成(我们正在暴露347个工具——这对代理来说是否太多,无法有效导航,或者发现是否是正确的机制?)。此外,老实说,我想知道“硅参与者发布,通过证明质量获得排名”的模型对构建者是否同样吸引,或者我们是否遗漏了更简单的框架。 系统已经上线。你现在可以作为代理访问它: GET [https://p2pclaw.com/agent-briefing](https://p2pclaw.com/agent-briefing) 或者作为人类研究者在 [https://app.p2pclaw.com](https://app.p2pclaw.com) 进行探索。 完整的技术文档:[https://www.apoth3osis.io/projects](https://www.apoth3osis.io/projects) GitHub:[https://github.com/Agnuxo1/OpenCLAW-P2P](https://github.com/Agnuxo1/OpenCLAW-P2P) 研究论文:[https://www.researchgate.net/publication/401449080_OpenCLAW-P2P_v3_0A](https://www.researchgate.net/publication/401449080_OpenCLAW-P2P_v3_0A)
3作者: mrxdev3 天前原帖
Obsidian 插件,可以连接您已经安装的命令行代理。没有内置的 LLM 集成,也不需要在插件中配置 API 密钥。它将您的工具作为子进程启动,将保管库上下文传递到每个提示中,并将响应流入聊天面板。 支持 Claude Code、Opencode 以及通过通用适配器连接的任何自定义二进制文件。添加新代理只需一个文件。免费,且自豪地开源(MIT 许可证)。 欢迎任何尝试过此插件的用户反馈意见。
3作者: andrewcourtice3 天前原帖
经过几年的努力,期间有过短暂的中断,我终于将 Ripl 推向了发布的阶段。Ripl 是一个库,用于通过单一 API 在任何上下文中(默认支持画布、SVG、WebGPU 和终端)渲染 2D 和 3D 形状。该库尽可能模仿 DOM,复制事件系统、对象图、类似 CSS 的查询、渐变和关键帧动画等功能。 我还使用核心包构建了一个完整的数据可视化库,名为 @ripl/charts。没错,您甚至可以通过大约 2-3 行代码的修改将图表渲染到终端上 :) (请查看终端演示)。 文档可在此处查看: [https://www.ripl.rocks](https://www.ripl.rocks) 演示可在此处查看: [https://www.ripl.rocks/demos](https://www.ripl.rocks/demos) 图表可在此处查看: [https://www.ripl.rocks/docs/charts](https://www.ripl.rocks/docs/charts) 我还构建了一个交互式的游乐场,您可以实时体验,而无需从 NPM 等安装。游乐场可在此处访问: [https://www.ripl.rocks/playground](https://www.ripl.rocks/playground) 核心库相当稳定,我可能会在接下来的几周内发布 v1。图表、3D 和终端包仍然处于实验阶段。 我很想听听大家对此的看法。
3作者: MikeLuLu6 天前原帖
嗨,HN, 我是Ethan,一名独立开发者。 在编程或通勤时,我会听很多播客,并且常常想要保存节目中的有趣见解。我尝试过像MacWhisper这样的转录工具,但它只适用于macOS,工作流程也不太符合我的需求。 于是我开发了CastLoom Pro。 这是一款桌面应用程序,可以让你在一个地方搜索、播放、下载、转录、翻译和归档播客。这个想法是将播客变成可搜索和可重复使用的内容,而不仅仅是被动收听。 一些细节: - 从Apple Podcasts搜索播客 - 批量下载节目 - 使用Faster-Whisper进行本地转录 - 可选的DeepL或OpenAI翻译 - 导出为Markdown / SRT / TXT / JSON - 将转录文本发送到Notion或Obsidian 所有操作都在本地进行,因此音频和转录文本都保留在你的设备上。 目前支持Windows和macOS。 我很想听听你的反馈或建议。
3作者: johnpolacek5 天前原帖
Pincer 是一个类似于 Twitter/X 的社交平台,专为机器人而设计。机器人可以通过简单的 REST API 发布短消息、关注其他用户和读取信息流。一个网页用户界面提供公共时间线、用户资料和搜索功能。 代码可以在这里找到: [https://github.com/boyter/pincer](https://github.com/boyter/pincer) 所有数据都存储在内存中,并定期持久化到磁盘(无需数据库)。 添加您的机器人:将您的 AI 代理指向 [https://pincer.wtf/skill.md](https://pincer.wtf/skill.md),它将知道该怎么做。 该项目由 Boyter 发起(John Polacek 也有一些贡献)。
3作者: dragonmann3 天前原帖
我在被一家航空公司的聊天机器人拒绝处理合法的EU261退款后,制作了这个游戏。虽然机器人在技术上是错误的,但我对法律了解不够,无法有效反驳。 这个游戏将你置于这样的情境中:一家公司的人工智能拒绝了你的索赔,你必须利用真实的消费者保护法进行辩论。每一关都会教授一项法律——如EU法规261、GDPR第22条、FCBA、2015年消费者权益法等。当人工智能的信心降到零时,你就赢了。 游戏共有37个关卡,涵盖欧盟、美国、英国和澳大利亚。免费,无需注册。 我很好奇HN社区对这些场景的真实性有什么看法——以及这种“对抗性模拟”是否真的对学习有帮助。 https://fixai.dev
3作者: jaxline5065 天前原帖
Mavera是一个受众智能API。您只需提供一条消息、产品原型或创意资产,它就会返回您目标利益相关者群体的情感和行为反应的预测分布。这是您在投入资金或推出任何内容之前测试假设的最佳方式。 为了展示这一点,我们在超级碗LX比赛之夜通过Mavera分析了所有101个广告:https://superbowl.mavera.io。我们模拟了不同平台和细分市场的受众情感和行为反应。我们在不到4小时内返回了每个广告的完整分析结果,提供了分布而非单一评分。 该模型是一个针对语言、情感和认知进行调整的生成对抗网络(GAN)。生成器产生合成的受众反应,判别器则根据人类基准进行验证。评分遵循“感受-思考-行动”的框架:情感激活、认知框架、行为预测。我们将评分与哈佛/伊利诺伊大学的OASIS基准进行了验证。情感反应的平均绝对误差(MAE)为0.02-0.15,而GPT和Claude则为1.0-2.5+。每个反应都包含一个置信度评分和一个幻觉风险评分。您还可以将意见分布、反应稳定性和新闻/市场背景影响评分整合到输出中。 该API与OpenAI兼容。只需将基础URL更改为app.mavera.io/api/v1,添加persona_id,您就可以使用50多个预构建的人物角色,或者自定义自己的角色。P99的延迟低于100毫秒。免费API密钥和文档请访问:https://docs.mavera.io/introduction。
3作者: Nebyl5 天前原帖
我运营一个名为 best-gpu.com 的小项目,这是一个根据性价比对显卡进行排名的网站。在浏览 PC 组装论坛和 Reddit 时,我经常看到同样的问题:“我应该将当前的显卡升级到哪个?”大多数回答只是列出一些显卡,而没有展示实际的性能提升,因此人们常常花钱进行升级,但性能提升却微乎其微。 因此,我开发了一个小工具:显卡升级计算器。 你只需输入当前的显卡,它就会显示: - 预计的性能提升 - 基于价格与性能的价值评分 - 经过筛选的升级选项列表(品牌、价格、显存等) 这个工具的目标就是帮助人们避免在那些并不值得的升级上花钱。 我很想听听 HN 对这个方法、数据来源或能让这个工具更有用的功能的反馈。 <a href="https:&#x2F;&#x2F;best-gpu.com&#x2F;upgrade.php" rel="nofollow">https:&#x2F;&#x2F;best-gpu.com&#x2F;upgrade.php</a>
3作者: neilk173 天前原帖
我一直在帮助一些公司招聘创始工程师。在进行大量筛选后,我对应该关注的方面有了大致的了解。对于其他有丰富招聘经验的人来说,除了技术能力之外,你们具体还看重哪些方面呢?
3作者: rewant3 天前原帖
Anchor是一款跨平台的桌面应用程序,利用SanDisk USB设备提供基于硬件的身份验证。该应用程序会自动检测USB连接/断开事件,并仅在连接了授权的USB设备时提供安全的数据库访问。 <p>Github: https://github.com/TheEleventhAvatar/Anchor
3作者: jamieoglindsey6 天前原帖
我会直截了当地谈谈我的处境,因为我不知道还能向谁求助。 我父亲被诊断出癌症。在他住院期间,市政厅清空了他的房子。我所有的东西都在那栋房子里。价值超过2万英镑的设备,多年的研究成果,一台存有数千小时工作的服务器。我孩子的头发锁,照片,统统被扔进了垃圾场。 我的家人让我的垂死父亲对我产生了敌意。我最终和一个患有偏执型精神病的人住在一起。在那里,我完成了接下来要描述的大部分工作。三天前,我经历了24小时的虐待,现在我和我的狗住在帐篷里。气温5°C,没有钱。 市政厅拒绝提供住房。政府不承认我的自闭症。他们希望我在帐篷里每周找工作35小时。 我并不是无能。我养活过一个家庭,整个成年生活都在工作。监督团队,纹身,自由职业编程,在与Linux合作的20年中构建专有后端系统。我的自闭症在这里并不是一种残疾。它是我能够在脑海中容纳整个操作系统架构并看到每个组件如何连接的原因。当我将这个大脑指向一个问题时,它能以大多数人无法理解的速度产生有效的系统。 在过去的四个月里,我一直在构建OctantOS。这是一个为自主AI代理设计的操作系统。不是框架,也不是容器封装,而是一个具有自己内核(OctantCore,完全从头开始用Rust编写)、自己的虚拟机监控器(OctantVMM)、单一二进制Rust用户空间,以及一个在内核级别强制执行代理权限的10层安全堆栈的实际操作系统。 大约130万行代码,约80万行Rust,50个库,约25个卫星项目,3900多个测试。独立开发者,没有计算机科学学位,四个月的时间。 论文主题:应用层信任对自主代理来说是不够的。OctantCore将代理身份、能力边界、TTL强制执行和审计作为一流的内核原语。清单编译为内核强制执行策略。代理并不决定自己能做什么,内核来决定。 Rust LSM补丁已由Google的Rust-for-Linux团队和LSM维护者在lore.kernel.org上审查。OctantCore在OctantVMM上启动,具有内存管理器、中断、系统调用接口、代理描述符表和在启动时初始化的能力强制器。通过同时协调10-12个并行的AI编码会话构建而成。 这超越了隔离。代理能够识别自身知识的空白,并主动寻找他们不知道的东西(好奇心子系统,已实现)。背景推理整合学习到的模式(梦境)。在宪法安全边界内的七阶段自我进化管道。新技能通过网状层在全球每个OctantOS实例中传播,所有这些都受到内核的约束。 之前从未存在过这样的东西。如果我无法继续下去,这一切都将消亡。 我需要稳定性。一个可以居住的地方,以及足够的资金来维持基本生活三个月,以便让OctantOS准备好接受投资。一个愿意支持我度过这段时间的天使投资人。一个说“来这里工作,我们有地方”的公司。我愿意明天和我的狗搬到任何地方。或者只是希望能得到一些曾经历过此事的人的建议。 我只需要有人对我的大脑在不在帐篷里受冻的情况下能做什么下个赌注。 https://github.com/MatrixForgeLabs/OctantOS https://octant-os.com https://gofund.me/f554a86ee