1作者: iico3 个月前原帖
嘿,HN,我开发了 Rememex,一个用于本地文件的语义搜索层。 问题是:我总是找不到文件。不是因为它们被删除了,而是因为我记不住确切的文件名或关键词。grep 需要精确的单词,而其他工具只能搜索文件名。我想输入我“想要表达的内容”,然后找到我需要的东西。 它是如何工作的: - 支持 120 多种文件类型的索引(代码、文档、图片、配置文件) - 混合搜索:向量嵌入 + 全文搜索 + JINA 交叉编码重排序 - 通过 Windows UWP 引擎对图像进行 OCR 处理 - 读取 EXIF GPS → 反向地理编码为城市名称(“来自伊斯坦布尔的照片”有效) - EXIF 日期 → 转换为人类语言(“夏季早晨”可以找到 7 月 8 日早上拍摄的照片) - 根据语言智能分块(Rust 在 fn/struct,Python 在 def/class) - 内置 MCP 服务器,供 AI 代理作为工具使用 所有功能均在本地运行。嵌入使用本地 ONNX 模型(Multilingual-E5-Base)作为默认设置,您也可以选择接入 OpenAI/Gemini/Cohere。 这个名字来源于 Vannevar Bush 的 Memex(1945),他设想了一种存储和检索人类所有知识的设备。 技术栈:Rust(Tauri 2)、React/TypeScript、LanceDB、rayon 我将其与 grep 进行了基准测试,在代理任务中,Rememex 一直能在一步内找到所需内容,而 grep 则需要 3-5 步或完全失败。关键区别在于:grep 需要精确的关键词,而 Rememex 需要的是概念。 目前仅支持 Windows(依赖 UWP OCR),但核心引擎是可移植的。 希望能收到关于搜索质量和架构的反馈。 MIT 许可,永久免费。
3作者: dontoni3 个月前原帖
就像YC合伙人在https://www.ycombinator.com/rfs上所做的那样,但这是为了社区。你个人希望看到的创业项目或解决方案是什么?你愿意为哪些付费?
1作者: port80803 个月前原帖
我们创建SageOx是为了应对在与编码代理合作时遇到的对齐问题。 Claude可以快速生成代码,但它们并不共享团队记忆。 每次会话都是从零开始。昨天做出的架构决策今天不可见。技术讨论会消失,除非有人手动记录。 速度提高了,但偏差导致架构熵和重复工作的加剧。 **SageOx的功能** SageOx提供了共享的、可查询的团队记忆,供人类和代理在行动前自动提取。 **捕捉** 我们在意图出现时进行捕捉,始终获得许可: - 技术会议 - 产品讨论 - 人类与代理的编码会话 **结构** 架构决策、约束、惯例和实施推理变成持久的、可搜索的文档。 例如,如果两位工程师决定将我们的媒体文档标准化为git-lfs而不是git,那么这个决策(及其理由)将成为未来会话的可搜索上下文。 如果一位开发者与Claude合作实现某个功能,那么实施背后的推理将成为团队记忆的一部分——而无需任何人手动撰写文档。 **咨询** 当你启动Claude时,ox会被预热并自动检索相关的团队上下文——最近的决策、架构约束、相关讨论——并将其注入到会话中。 还有一个网页应用程序,用于查看结构化上下文、管理成员、连接代码库和检查账本。 **公开构建(开放工作)- 欢迎来了解我们** 演示: [https://sageox.ai/blog/introducing-sageox](https://sageox.ai/blog/introducing-sageox) Ox CLI本身是使用SageOx构建的,已登录的用户可以看到: - 技术决策背后的讨论 - 我们考虑的权衡 - 我们改变方向的时刻 - 产生特定变化的人类与代理会话 不仅仅是我们发布的内容——还有我们如何推理得出这些结果。 我们认为,随着越来越多的工程工作通过AI代理完成,这种可检查的推理水平变得重要。 **试试吧!** 现在,SageOx v0.1适用于通过提示完全构建的Claude用户。 如果你在使用编码代理的工程师之间进行协调,并且看到偏差或重复决策,我们非常欢迎反馈。 >_ Claude提示:查看gh sageox/ox并安装cli >_ Claude提示:ox login 乐意回答有关架构、上下文捕捉、检索或与传统文档的权衡的技术问题。 反馈邮箱:Feedback@sageox.ai 网站:sageox.ai [https://github.com/sageox/ox](https://github.com/sageox/ox)
1作者: iamspoilt3 个月前原帖
我创建了Orchestera,这是一个平台即服务(PaaS),允许您在自己的AWS账户中编排Apache Spark集群,使用EC2实例时没有额外的计算费用。 我之所以开发这个,是因为我厌倦了像AWS EMR和Databricks这样的产品在使用Apache Spark时收取的计算费用。虽然有人可能会认为Databricks是一个更优越的产品,提供了更多附加价值,但我在使用AWS EMR的Apache Spark时并没有感受到这一点(根据我个人的使用经验)。 我构建这个工具的动机是希望能够创建自己的Apache Spark集群,而无需了解底层的数据基础设施工程,从而快速进入编写Spark管道的阶段,无论是作为Python应用程序还是Jupyter笔记本。 我花了将近一年的时间来构建它,同时还要兼顾日常工作。当然,我在前端设计和视频解说中使用了人工智能,而背后的基础设施工程则是基于我在行业中的丰富经验。负责集群编排的后端使用了以下技术: - Django和DRF用于API - Temporal用于异步工作者 - Pulumi通过Temporal工作者运行以编排集群 - Karpenter根据Spark执行器的工作负载和请求进行节点自动扩展 - Librechat用于Spark历史服务器和基于MCP的Spark管道运行分析调试 目前CPU限制没有上限,因此您可以在自己的个人AWS账户中免费试用这个工具。 同时,我也期待在Hacker News上获得反馈。
1作者: brunocfalcao3 个月前原帖
嗨,HN——我是布鲁诺。我创建了My Market Study,因为我对昂贵的代理报告感到失望,这些报告既慢又浅显。 您只需回答一个简短的向导问题 → 它会生成一个结构化的12章市场研究报告:包括市场总量(TAM)/可服务市场(SAM)/可获取市场(SOM)、竞争格局、市场定位、风险等信息——并附带来源——以PDF格式提供,同时还提供一个PPTX和HTML格式的入门演示文稿! 我希望能获得关于准确性、结构和用户引导的直接反馈。 样本报告:<a href="https://my-market-study.com/sample-study" rel="nofollow">https://my-market-study.com/sample-study</a>