去年夏天,我们在Tiger Data公司面临了一个难题。Tiger Data是一家Postgres云服务提供商,主要业务集中在时间序列数据上。我们希望将业务拓展到新兴的以人工智能为中心的工作负载,并希望在Postgres中提供一套先进的混合搜索技术。我们已经在内部构建了pgvectorscale,旨在突破pgvector的主内存限制,实现语义搜索的扩展。我们还需要一个可扩展的排名关键词搜索解决方案。
问题是:核心Postgres并没有提供这样的功能;领先的Postgres BM25扩展ParadeDB受到AGPL的保护;开发我们自己的扩展似乎是一项艰巨的任务。我估计我们需要一个小团队的优秀工程师和6到12个月的时间。而且我们可能仍然无法达到像Parade/Tantivy这样成熟系统的性能。
或者说,我们会吗?到那时,我已经在AI增强开发方面进行了足够长时间的实验,意识到借助最新工具(Claude Code + Opus)和经验丰富的团队(我在数据库系统内部工作了25年),过去的时间估计几乎可以抛到一边。
我告诉我们的首席技术官,我认为我可以在一个季度内独立完成这个项目。这引起了一些人的关注。
实际上,这花费的时间稍微多了一些(两个季度),而且在开源预发布后,我们得到了社区的真正帮助(太棒了!)。但今天我非常兴奋(也有点疲惫)地分享,pg_textsearch v1.0已经通过开源(Postgres许可证)在Tiger Data云上自由提供,希望不久后能在您附近的超大规模环境中使用:
[https://github.com/timescale/pg_textsearch](https://github.com/timescale/pg_textsearch)
在伴随发布的博客文章中,我概述了架构,并展示了使用MS-MARCO的基准测试结果。令我惊讶的是,我们不仅能够达到Parade/Tantivy的查询性能,而且在查询吞吐量上大幅超越,测得在规模上有4.7倍的优势:
[https://www.tigerdata.com/blog/pg-textsearch-bm25-full-text-search-postgres](https://www.tigerdata.com/blog/pg-textsearch-bm25-full-text-search-postgres)
看到我在这个领域辛勤耕耘了这么久的工作迅速发生变化,使我们能够在技术目标上更加雄心勃勃,这令人兴奋(老实说,也有点不安)。技术壁垒不再是壁垒。
基准测试脚本和方法论已在GitHub仓库中提供。欢迎在讨论中提出任何问题。
谢谢,
TJ (tj@tigerdata.com)
返回首页
最新
我之所以构建这个,是因为我找不到关于VLA模型在商业任务中实际效果的真实数据。我来自谷歌的搜索排名部门,在那里你可以测量一切,而在机器人领域似乎没有人知道这些情况。
PhAIL运行四个模型(OpenPI/pi0.5、GR00T、ACT、SmolVLA),用于箱对箱的订单拣选——这是最常见的仓库操作之一。使用相同的机器人(Franka FR3)、相同的物品,进行了数百次盲测。操作员不知道正在运行哪个模型。
最佳模型的表现为每小时64个单位(UPH)。人类遥控同一机器人时的表现为330个单位。人类手动操作时的表现超过1300个单位。
所有数据都是公开的——每次实验都有同步的视频和遥测数据,微调数据集和训练脚本。排行榜也开放接受提交。
欢迎就方法论、模型或我们的观察结果提问。
我开发Solitaire是因为“具备记忆能力”的人工智能会话仍然感觉像是重新开始,只是有了稍微多一点的上下文。<p>这个代理可以从上周检索事实,但合作本身并没有改善。我喜欢用一个比喻来形容它:这就像是一个“聪明的陌生人,手里有一本更好的笔记本”。<p>问题不在于检索。市面上有很多工具可以存储和检索信息,成功程度各异。问题在于代理与您合作的方式没有任何改变。它能回忆起您说过的话,但并没有学习您的思维方式。<p>Solitaire是我对下一层次的尝试。它为人工智能代理提供身份基础设施,旨在使互动本身随着时间的推移而改善。<p>除了记忆之外,它还具备以下功能:
- 行为基因组:从真实互动中演变而来的性格特征(遵守、果断、温暖等),而非静态配置。
- 体验记忆:编码会话的感受,而不仅仅是所说内容。
- 自主自我改进:检索权重根据有用性进行调整。知识图谱自我修复(矛盾检测、信心重评分、实体重新链接)。
- 预期检索:预测您需要的上下文,并在您提问之前进行预加载。
- 引导式入门:新用户通过对话构建伙伴,而不是通过JSON文件。
- 记忆兼容性:使用Solitaire内置的记忆或带入您现有的记忆工具。
- 模型兼容性:许多模型可以开箱即用,我们正在努力整合其他模型。
- 您的数据保持本地存储,因此您拥有完全的数据主权。<p>在实际生产中,已经进行了600多个会话,累计超过14,000条条目,并且还在不断增加。我有两篇研究论文将基于这项长期工作发表。<p>代码库:<a href="https://github.com/PRDicta/Solitaire-for-Agents" rel="nofollow">https://github.com/PRDicta/Solitaire-for-Agents</a><p>我知道代理记忆空间很受欢迎,但记忆只是一个组成部分。身份是没有人去构建的东西。代理应该在与您合作的能力上变得更好,而不仅仅是在记忆上变得更好。<p>我特别欢迎以下方面的反馈:
1. 身份与记忆的区别对您来说有意义吗?
2. 目前的记忆工具在实践中对您来说哪里出现了问题?
3. 什么样的功能会让您觉得值得将这样的工具整合到您的代理堆栈中?
4. 我还遗漏了什么?
一个ATproto / Bluesky客户端,每个请求都经过审核、分类、礼貌评分,并由实时编译的INTERCAL程序进行验证。<p>已发布到Bluesky。请保持“可接受”的礼貌。<p>这就是INTERCAL:<p><a href="https://en.wikipedia.org/wiki/INTERCAL" rel="nofollow">https://en.wikipedia.org/wiki/INTERCAL</a><p>这就是Ada:<a href="https://en.wikipedia.org/wiki/Ada_(programming_language)" rel="nofollow">https://en.wikipedia.org/wiki/Ada_(programming_language)</a>
Claude Code 在编写代码方面非常出色,但它在需求不明确的情况下也能愉快地进行构建,能够用不同的方式实现相同的功能,并且除非你特别要求,否则它可能不会编写出优秀的测试。
Prawduct 是一套提示、技能、钩子和文档模板,旨在帮助 Claude Code 更加专注于产品开发,而非单纯的代码开发。
你可以从简单的“制作一个带科学计算器的网站”开始,或者从复杂的“创建一个支持 iOS、Android 和网页客户端的 MMO”入手。你可以根据需要指定尽可能多或尽可能少的架构标准或实现细节。
像 /critic 和 /janitor 这样的专业技能会自动运行,并进行无上下文的审查,以捕捉偏差、黑客行为和违反最佳实践的情况。
我自己已经使用 Prawduct 几个月了,开发了自己的项目,同时也在不断迭代 Prawduct 本身(当然,它是自托管在自己的框架上)。
我很想听听大家的反馈。
Proof Engine 渲染的是数学,而不是图形。洛伦兹吸引子之所以看起来像洛伦兹吸引子,是因为粒子实时遵循实际的微分方程。实体通过力场相互连接,当它们消亡时会溶解成奇异吸引子。音频是基于音乐理论合成的,而不是音频文件。
这并不是一个传统的游戏引擎。它是一个数学即为视觉的系统。
https://github.com/Mattbusel/proof-engine/releases/tag/v0.1.0
我们尝试构建一个Excel错误检查器。为了实现这一目标,我们首先需要真正理解电子表格的语义结构。因此,我们进行了相关的构建,结果发现这是一个更复杂、更普遍的问题。
核心问题在于:大多数现实世界中的电子表格并不是关系型表格。合并单元格、多级标题、每个工作表中的多个表格、数据与总计混合在一起。你不能仅仅将它们导出为CSV文件就算完成。大型语言模型(LLMs)能够处理简单的情况,但在复杂的工作簿中却难以应对。
我们的方法使用一种代理引导的编译管道,生成SQL准备好的关系型表格,并提供完整的单元格级来源信息。这个演示展示了我们的工作:<a href="https://storage.googleapis.com/deeptable-public/deeptable_animation.html" rel="nofollow">https://storage.googleapis.com/deeptable-public/deeptable_an...</a>
我们有一些早期客户,但老实说,我们还不确定这是否是一个真正的市场,还是一个小众问题。我们发布这个信息是希望听到那些处理过任意电子表格导入的人的反馈。无论你是解决了这个问题、放弃了,还是仍在忍受这个痛苦。
如果你想在自己的文件上试试,请给我发邮件(我的邮箱在个人资料中可以找到),我会给你提供API访问权限。