嘿,HN!<p>在过去的几个月里,我一直在开发 Omni——一个工作场所搜索和聊天平台,能够连接到 Google Drive/Gmail、Slack、Confluence 等应用。它本质上是 Glean 的一个开源替代品,完全自托管。<p>我注意到一些组织觉得 Glean 价格昂贵且不够可扩展。我想要构建一个小型到中型团队可以自行运行的解决方案,因此我决定全部基于 Postgres(准确来说是 ParadeDB)和 pgvector。没有使用 Elasticsearch 或专用的向量数据库。我认为 Postgres 完全有能力处理所需的规模。<p>在您自己的基础设施上启动 Omni,只需一次 `docker compose up` 和一些基本配置以连接您的应用和 LLM。<p>它的功能包括:<p>- 从所有连接的应用同步数据,并构建 BM25 索引(ParadeDB)和 HNSW 向量索引(pgvector)
- 混合搜索结合了两者的结果
- 聊天界面,LLM 可以使用工具搜索索引——不仅仅是基本的 RAG
- 传统搜索界面
- 用户可以使用自己的 LLM 提供商(OpenAI/Anthropic/Gemini)
- 支持 Google Workspace、Slack、Confluence、Jira、HubSpot 等的连接器
- 连接器 SDK 用于构建自定义连接器<p>Omni 目前处于测试阶段,我非常希望得到您的反馈,特别是在以下方面:<p>- 有没有人尝试过自托管工作场所搜索和/或 AI 工具,您的体验如何?
- 在更大规模下,使用仅 Postgres 的方法是否有任何顾虑?<p>欢迎提出任何问题!<p>代码地址:<a href="https://github.com/getomnico/omni" rel="nofollow">https://github.com/getomnico/omni</a>(Apache 2.0 许可)
返回首页
最新
我开发了一款用于静态网站的工具——适用于博客、文档和营销页面——它允许访客提问并从您的实际内容中获取答案。<p>您只需粘贴您的网址,它会爬取页面,将其索引到向量存储中,并提供给您一个脚本标签。该机器人仅根据您网站上的内容进行回答,并引用所使用的具体页面。<p>对于内容丰富的网站,访客有问题但不想通过导航进行查找时,这个工具非常有效。<p>技术栈:Rust,运行在Cloudflare Workers上,使用Vectorize和Cloudflare Queues。
当人工智能真的接管了它的工作时,你会感到惊讶吗?
目前大多数人工智能系统依赖于概率性回忆:RAG、嵌入和基于提示的记忆。这使得执行不变性、审计事实或保持推理与真实情况之间的清晰分离变得困难。我构建了一个最小的概念验证,展示了一种不同的方法:通过MCP访问的确定性符号记忆层。与其将“记忆存储在模型内部”,不如从一个明确的符号层即时解析知识。目标不是替代RAG或助手记忆,而是提供一个缺失的基础设施层:一个可控的知识支撑架构,用于人工智能系统。这个仓库展示了这一理念的最小可行形式。
我创建Axiom是因为我在自己手写的STEM笔记中反复遇到同样的问题。
在纸上,一切看起来都很整洁——方程对齐、步骤分组合理、表格清晰明了。但当我扫描这些页面并通过OCR(包括基于LLM的工具)处理时,结构就会崩溃。字符大多是正确的,但布局——实际上使数学可读的部分——却消失了。
对齐的方程会失去对齐,多步推导会合并成一个段落,编号的问题会混在一起,表格会变成普通文本。从技术上讲,它是“提取”出来的,但实际上在没有手动修正所有内容为LaTeX的情况下是无法使用的。
这个差距就是Axiom试图解决的问题。
我没有单纯关注转录的准确性,而是专注于结构的保留。当前的处理流程大致如下:
1. 从图像或PDF进行OCR。
2. 针对数学对齐、推导分组、编号块保留和表格检测特别调整的结构提示。
3. 一个后处理层,规范化LaTeX/Markdown输出,合并数学块,保护编号标记,并稳定表格列。
4. 导出为可编译的LaTeX、Markdown或可搜索的PDF。
最困难的部分不是确保字符的正确性,而是防止结构漂移——尤其是对齐的方程和多行推导。我添加了对齐模式检测、LaTeX环境的原子分页和规范化处理,以保持数学块在页面间的完整性。
我们的目标不是“AI转录”,而是让手写的STEM笔记在数字化过程中不失去其数学结构。
它完全在浏览器中运行:
[https://www.useaxiomnotes.com](https://www.useaxiomnotes.com)
嗨,HN,
我一直在探索是否可以将pandas用作计算描述,而不是运行时。
这个想法是用pandas/NumPy编写数据逻辑,然后将该逻辑冻结为一个静态计算图,并在纯C++中执行,而不嵌入Python。
这并不是要重新实现pandas或加速Python,而是在pandas风格的逻辑有用的情况下,Python本身变成了一个负担(延迟、嵌入、部署)。
这个项目仍然很小且处于实验阶段,但它已经可以处理一小部分类似pandas的操作,并且在C++中以确定性方式运行。
代码库: [https://github.com/CVPaul/xpandas](https://github.com/CVPaul/xpandas)
我很想听听大家对这个方向是否合理的反馈,以及大家认为可能出现问题的地方。
除了mec1-az2之外,AWS现在还失去了mec1-az3,导致该区域无法使用,因为许多控制平面依赖于法定人数。<p>状态 -> https://health.aws.amazon.com/health/status
我是一个学生创始人,正在开发 EPIC(<a href="https://no-edit.lovable.app" rel="nofollow">https://no-edit.lovable.app</a>)——一个基于浏览器的设计工具(海报、演示文稿、标志、模板),具备手动编辑和可选的 AI 模式。但有趣的部分并不是编辑器,而是其中的导航 + 视觉网站地图工具。
大多数小型项目在结构上都面临挑战。页面变得杂乱无章,导航随机增长,转化率下降,因为架构不清晰。因此,我开发了一个视觉网站地图生成器,让你能够:
- 直观地绘制整个网站结构
- 立即查看层级关系
- 识别死胡同页面
- 在构建之前修正导航流程
- 导出并进行迭代
在过去几周里:
- 每天有超过100个自然访问者
- 单日注册人数达到100
- 平均会话时间约为2分钟以上
- 用户专门花时间在导航工具上
- 没有付费广告,主要依靠 Hacker News 和自然发现
目前还处于早期阶段,仍在改善用户体验和性能。我非常希望能听到关注结构、信息架构(IA)和转化架构的人的反馈。你认为当前网站地图工具中缺少什么?请在评论中留言。