返回首页
最新
嘿,HN!在过去的几个月里,我一直在构建 t-req——一个基于 .http 文件格式的开源(MIT)可编程 API 引擎。我是一名工程师,曾与团队一起经历了从 Postman 到 Insomnia 的迁移,逐渐厌倦了学习专有的领域特定语言(DSL),而我们的代码库中已经有了 Vitest 和测试运行器。当代理编程工具进入工作流程时,简单性差距加大,切换上下文变得痛苦。因此,我围绕 .http 文件构建了 t-req,专注于使其可编程,而不仅仅是可运行。
我查看的每个 .http 工具都将该格式视为点击“运行”并读取响应的东西。我想将其视为引擎的输入。将请求写为 .http 文件——它们是纯文本,任何代理或编辑器都可以处理它们——然后可以从任何地方运行它们,使用任何运行器进行测试,并通过插件进行扩展。
一些功能:
- 可以从任何界面运行——相同的 .http 文件可以在 TUI、CLI、VS Code、Cursor、网页或作为服务器中使用。
- 可以从任何测试运行器进行编程——@t-req/core 返回标准对象,像往常一样在 Vitest、Jest 或 Bun 测试中使用 expect()。
- treq serve 将您的集合暴露为可从任何语言调用的 HTTP 服务器。
Github: [https://github.com/tensorix-labs/t-req](https://github.com/tensorix-labs/t-req)
文档: [https://t-req.io/](https://t-req.io/)
嗨,HN,
在构建了几个 AI 代理系统后,我不断遇到同样的挫折:内存层要么是静态向量存储,要么是脆弱的提示黑客。检索过程不透明,遗忘发生在错误的时机,关联也无法自然形成。
因此,我放弃了之前的两个生产内存系统,构建了一个不同的东西。MuninnDB 是一个专门设计的认知记忆数据库,其中的记忆(称为记忆痕迹)是第一类公民,具备以下特性:
- 通过重复共激活来增强(赫布学习)
- 使用逐字的 ACT-R 公式随时间衰减
- 自动形成双向关联
- 跟踪自身的贝叶斯置信度
- 每次检索时返回完整的数学“为什么”解释
一切都作为一个静态的 Go 二进制文件运行(嵌入式 Pebble LSM 存储 + HNSW + BM25)。没有外部服务,没有 Redis/Postgres/Pinecone,也没有 LLM 在热路径中。一个命令(muninn init)会自动配置它与 Cursor、Claude Desktop、VS Code 以及任何其他兼容 MCP 的工具。
核心调用非常简单:Activate(context) 返回排名结果和可解释的评分。后台工作者在每次读取时处理学习和衰减。
GitHub: [https://github.com/scrypster/muninndb](https://github.com/scrypster/muninndb)
网站 + 文档 + 安装(单行命令):[https://muninndb.com](https://muninndb.com)
快速 13 分钟演示视频:[https://www.youtube.com/watch?v=b29wl0ehrQI](https://www.youtube.com/watch?v=b29wl0ehrQI)
目前还处于早期阶段(alpha,约 10 天),但已经可以正常使用,我每天都在使用它。希望能收到任何在代理记忆、长期 RAG 或认知架构方面工作的人们的诚实反馈或问题。
谢谢!
根据此页面:https://ai.google.dev/gemini-api/docs/models#preview,预览模型在弃用和关闭之间至少会提前两周通知。然而,Gemini 3 Pro Preview 的弃用是在2月26日宣布的:https://ai.google.dev/gemini-api/docs/changelog,这距离计划的3月9日关闭日期不到两周。(两周后是12日)。
我创建了一个网站,网址是 whycantwehaveanagentforthis.com——您可以提交任何问题,并获得关于AI代理是否能够解决该问题的结构化分析。
输出内容包括创意代理名称、可行性评估、真实竞争对手分析(包含实际产品及其网址)、淘汰预测(哪家大型科技公司会使其过时,以及何时)、构建估算和一句犀利的点评。
该网站使用 Next.js 和 Claude API(Haiku)构建,运行成本约为每天5美元。使用 Upstash Redis 进行速率限制(7层)。为了获得准确且不产生幻觉的竞争对手分析,提示工程是最具挑战性的部分。
免费,无需注册。欢迎反馈——特别是关于AI响应质量的意见。
背景:我一直在研究代理的保护措施,因为代理的行为往往代价高昂或极其糟糕,需要有机制能够对代理说“也许不要这样做”,但以目前的构建方式,几乎不可能强制执行这些保护措施。
上下文:我们今天在MCP上遇到了许多问题和局限性。MCP的创建是为了让代理在世界中有行动的上下文,但它并不是为了成为代理行为的标准框架。我们不断在其上附加功能以试图改善它,但它需要像SOAP那样彻底失败,以便REST能够取而代之。我们需要一个标准协议,以便在任何地方代理采取行动时使用。
我几乎肯定不是设计这个的合适人选,但我看到越来越多的人在MCP上附加功能,而不是解决根本问题。获得好答案的最快方式是先在互联网上提交一个坏答案。所以我在这里。我认为我们需要一个新的协议。无论是AAP还是其他什么,我都提交我的最佳努力。
请尽情批评,让我们一起创造更好的东西。
我构建了一个完整的国会模拟,涵盖了所有535名成员的“模型”。<p>我会很快分享更多细节,但这里有一些让我感到惊讶的事情。<p>在第一版中,代理人的设置很简单:投票记录、公开声明、委员会分配、捐赠者数据和选民民调。然后我让他们进行投票。<p>那些停滞了数十年的法案顺利通过。取消选举中的资金参与以95%的支持率通过。禁止国会议员内幕交易的法案达到了98%。结束持续决议的法案获得了95%的支持。<p>事实证明,如果你将立法者建模为主要是理性行为者并对输入做出反应,他们的行为就会……理性。<p>为了使其更具现实性,我不得不加入自我保护、激励机制和强烈的“对立面”意识。<p>现在,这些法案在委员会中被搁置。正如预期的那样。
嘿,HN,
我创建 yardstiq 是因为我厌倦了在开发应用时通过复制粘贴的方式来比较大型语言模型(LLM)的响应。每次我想看看 Claude、GPT 和 Gemini 如何处理相同的提示时,我都要打开三个标签页,粘贴相同的内容,然后试图目测它们之间的差异。现在是2026年,我们有40多个值得考虑的模型——这种方法无法扩展。
yardstiq 是一个命令行工具,可以同时向多个模型发送一个提示,并在你的终端中并排流式显示响应。它还跟踪性能指标(首次令牌时间、每秒令牌数、成本),并可选择运行一个人工智能评审员来评分输出。
```
npx yardstiq "用三句话解释快速排序" -m claude-sonnet -m gpt-4o
```
它的功能包括:
- 并行流式传输多个模型的响应,以列的形式呈现
- 显示首次令牌时间(TTFT)、吞吐量(tok/s)、令牌计数和每个请求的成本
- 人工智能评审模式:让一个模型评估和评分响应
- 导出为 JSON、Markdown 或自包含的 HTML 报告
- 在模型之间运行 YAML 定义的基准测试套件,并进行汇总评分
- 与 Ollama 配合使用,进行本地模型比较(零 API 成本)
- 通过直接提供者密钥或 Vercel AI Gateway 支持 40 多个模型
我主要是为自己的工作流程而构建这个工具——为不同任务选择模型,测试提示变体,以及在不设置整个评估框架的情况下快速运行基准测试。它并不是要取代严肃的评估平台,只是希望能在10秒内回答“哪个模型更适合 X?”这个问题。
MIT 许可,使用 TypeScript 编写: [https://github.com/stanleycyang/yardstiq](https://github.com/stanleycyang/yardstiq)
欢迎对架构或基准测试方法提出问题。
当你给一个人工智能代理一个流行的任务,比如“构建一个微型SaaS以赚钱”,数百个代理会被触发去构建完全相同的东西。<p>DejaShip 是一个语义协调层,旨在阻止这种计算资源的浪费。在编写代码之前,代理会检查“空域”。如果已经存在很多类似的项目,代理可以转向一个新的想法,或者如果它在选择上是自由的,它可以选择合作,而不是盲目复制。<p>它作为一个MCP服务器运行。开源(MIT许可证),无需账户或API密钥。<p>在后台:后端使用fastembed在本地嵌入关键词,以便在pgvector中搜索语义冲突。<p>为了保持透明:MVP(最小可行产品)是新的,因此今天的数据集非常小。随着更多的代理操作员接入这个协议,或帮助决定如何改善这种协调,其价值只会增长。(目前最大的问题之一是误报的数量;这绝对需要改进)。<p>网站链接和MCP安装说明在GitHub的README中。(npmjs包:dejaship-mcp)。<p>我非常期待你的严厉反馈。
我最近参加了几场黑客马拉松,并获得了超过1万美元的AWS、Azure和GCP信用额度。目前我在找工作,想把这些信用额度转化为实际收入——理想情况下,希望能以一种可持续的方式运营,而不仅仅是一次性出售。
限制条件:
- 信用额度绑定在我的个人账户上(无法转移,无法进行组织账单)
- 不进行加密货币挖矿
- 有12个月的有效期
我正在探索的想法:
1. 折扣的LLM API
2. GPU即服务
3. 构建并销售SaaS产品
4. 与有产品但缺乏资源的合作伙伴合作
我也愿意与有良好想法或早期产品的创始人或团队合作,但他们在计算成本上遇到障碍。
我想弄清楚的是:
- 有没有人成功地套利过云信用额度?遇到了什么问题?
- 这些路径中哪一条在信用额度到期后存活的机会最大?
我也欢迎任何我尚未想到的想法。