返回首页

24小时热榜

17作者: lukekim大约 4 小时前原帖
嗨,HN,我们是Luke和Phillip,我们正在构建Spice.ai OSS——一个轻量级、可移植的数据和AI引擎,基于Apache DataFusion和Ballista,支持SQL查询、混合搜索和在企业如Barracuda Networks和Twilio使用的分散存储中的LLM推理。 我们在2021年首次在HN上介绍了Spice,并在2024年重新推出了从头开始用Rust重建的版本。 Spice包含数据加速器的概念,这是一种从不同来源(如其他数据库)在嵌入式数据库(如SQLite和DuckDB)中物化数据的方法。 今天,我们很高兴地宣布一个新的受Ducklake启发的数据加速器,基于Vortex构建,Vortex是一种高性能、可扩展的列式数据格式,声称随机访问速度比Apache Parquet快100倍,扫描速度快10-20倍,写入速度快5倍,同时具有相似的压缩比。 在我们的Spice测试中,Vortex的性能比DuckDB更快,内存使用量仅为其三分之一,并且具有更好的可扩展性(支持多文件)。在实际部署中,我们发现DuckDB数据加速器通常在1TB左右达到上限,而Spice Cayenne可以支持PB级别的规模。 您可以在<a href="https://spice.ai/blog" rel="nofollow">https://spice.ai/blog</a>和Spice OSS发布说明中阅读更多信息。 这只是第一个版本,我们非常希望听到您的反馈! GitHub: <a href="https://github.com/spiceai/spiceai" rel="nofollow">https://github.com/spiceai/spiceai</a> [1] <a href="https://news.ycombinator.com/item?id=28448887">https://news.ycombinator.com/item?id=28448887</a> [2] <a href="https://news.ycombinator.com/item?id=39854584">https://news.ycombinator.com/item?id=39854584</a> [3] <a href="https://github.com/vortex-data/vortex" rel="nofollow">https://github.com/vortex-data/vortex</a> [4] <a href="https://spiceai.org/blog/releases/v1.9.0" rel="nofollow">https://spiceai.org/blog/releases/v1.9.0</a>
15作者: injung大约 7 小时前原帖
目前,大家都在使用人工智能工具进行发货,而我却在这里使用一个可视化编辑器。不过,我认为许多团队都非常熟悉“市场部想要再次更改着陆页”这个问题。 多年来,我一直遇到这个问题。营销活动页面不断涌入,工程师被拉入其中,工单堆积如山。通常这些页面的组件都是相同的,只是重新排列了一下。 几年前,我在一家初创公司工作时,我们构建了一个内部工具来解决这个问题。你可以注册现有的 React 组件,它们会以拖放块的形式出现,最终结果是一个 JSX 字符串。无需学习任何模式,也不需要更改你的组件代码。 我们在生产环境中使用了这个工具,处理真实流量,环境复杂且遗留系统较多。它表现得很好。随着时间的推移,它支持了大约 60% 的流量。市场部可以在不提交工单的情况下发布页面,产品团队也可以进行布局级的 A/B 测试。这个经历最终促使我对其进行整理并开源。 Composify 介于无代码页面构建器和无头内容管理系统之间。像 Wix 或 Squarespace 这样的页面构建器提供拖放功能,但会将你锁定在他们的组件中。还有一些优秀的工具,如 Builder.io、Puck 和 Storyblok,但许多工具要求你将组件适配到他们的模型中。Composify 刻意保持简约:它允许你直接使用实际的生产组件。 目前还处于早期阶段。文档需要改进,还有一些粗糙之处。但它已经在生产环境中运行,并为我们解决了一个实际问题。如果你已经有了一个组件库,并希望非开发人员能够从中构建页面,那么它可能会很有用。 主页: [https://composify.js.org](https://composify.js.org) 欢迎提问或反馈!
6作者: sidmanchkanti21大约 8 小时前原帖
嗨,HN,我们是Sid和Ritvik,Pulse的联合创始人。Pulse是一个文档提取系统,旨在生成适合大型语言模型(LLM)的文本。我们创建Pulse是因为意识到,尽管现代视觉语言模型在生成合理文本方面表现出色,但这也使得它们在大规模光学字符识别(OCR)和数据摄取中存在风险。 当我们开始进行文档提取时,我们假设与今天许多团队一样:基础模型正在快速改进,多模态系统似乎能够很好地读取文档,对于小型或干净的输入,这一假设往往成立。然而,当我们开始处理真实文档的大量数据时,这些局限性显现出来。长PDF、密集表格、混合布局、低质量扫描以及财务或运营数据暴露出一些微妙、难以检测且修正成本高昂的错误。输出结果往往看起来合理,但在表格和数字字段中却包含一些小但重要的错误。 自那时以来,我们的许多工作都是应用研究。我们对复杂文档进行受控评估,微调视觉模型,并构建真实情况至关重要的标注数据集。我们的团队曾多次熬夜手动标注页面,围绕表格绘制边框,逐点标记图表,或讨论某个数字是否不可读或仅仅是扫描效果差。这一过程在很大程度上塑造了我们的直觉,远比单纯的基准测试更为深刻。 很快我们意识到,核心挑战并不在于提取本身,而在于信心。视觉语言模型将文档图像嵌入到高维表示中,这些表示优化了语义理解,而非精确转录。这一过程本质上是有损的。当不确定性出现时,模型倾向于使用学习到的先验来解决,而不是揭示模糊性。这种行为在消费场景中可能是有益的,但在生产流程中却会造成难以扩展的验证问题。 Pulse的诞生旨在通过系统设计来弥补这一差距,而不仅仅依赖提示。系统将文档理解视为一个分离的过程,布局分析与语言建模相分离。文档被规范化为结构化表示,以保留层次和表格,然后再进行模式映射。提取受到预先定义的模式的约束,提取的值与源位置关联,以便可以检查不确定性,而不是简单地猜测。实际上,这导致了一种混合方法,结合了传统计算机视觉技术、布局模型和视觉语言模型,因为没有单一的方法能够可靠地处理这些情况。 我们故意分享了一些反映激励我们进行此项工作的输入类型的文档。这些文档代表了我们看到的通用OCR或基于VLM的管道所面临的困难案例。 以下是一个财务10K报告: <a href="https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example1">https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example1</a> 以下是一份报纸: <a href="https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example2">https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example2</a> 以下是一份租金清单: <a href="https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example3">https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example3</a> Pulse并不完美,特别是在高度退化的扫描或不常见的手写体上,仍然有改进的空间。我们的目标并不是完全消除错误,而是让错误可见、可审计,并更容易进行推理。 Pulse通过基于使用的API和平台访问提供。您可以在这里试用,并在这里访问API文档。 演示链接在这里: <a href="https:&#x2F;&#x2F;video.runpulse.com&#x2F;video&#x2F;pulse-platform-walkthrough-69f9">https:&#x2F;&#x2F;video.runpulse.com&#x2F;video&#x2F;pulse-platform-walkthrough-...</a> 我们希望听听其他人在文档提取中如何评估正确性,您在实践中遇到的失败模式,以及您依赖哪些信号来判断输出是否可信。我们会在这里回答问题,并乐意处理其他文档,如果有人想分享示例。
6作者: timatping大约 8 小时前原帖
嗨,HN!我们创建了 DNS Directory(<a href="https://dnsdirectory.com" rel="nofollow">https://dnsdirectory.com</a>),这是一个免费的、可搜索的公共 DNS 服务器数据库,每 10 分钟进行一次实时监测。 我们需要找到一个全球运营商使用的最新 DNS 服务器列表,以便用于代理指纹识别/网络爬虫项目,但我们惊讶地发现这样的列表并不存在,因此我们在一次内部黑客马拉松中自己构建了这个数据库。 我们正在添加更多功能,但到目前为止,我们已经: - 每 ~10 分钟测试超过 77,000 个服务器 - 允许按正常运行时间、位置、安全功能(广告拦截、恶意软件保护、DNSSEC)进行筛选 - 显示 IPv6 支持、Anycast 等信息 - 显示所有历史测试信息 我们没有计划将网站商业化,它将保持免费,以便作为公共资源使用。 我很想听听大家对我们改进网站的建议。网站目前可以正常运行,但某些功能,比如内容过滤检测,仍有待完善。我们希望在亚洲和美国增加测试节点,以便提供更好的覆盖,目前我们只从阿姆斯特丹进行测试。 如果您想要添加一个网站上尚未列出的 DNS 服务器,可以通过表单提交。如果您是一个大型组织,有很多服务器需要添加,可以通过 support@dnsdirectory.com 给我发邮件,我们会将其纳入。 谢谢!
5作者: suhaspatil101大约 4 小时前原帖
大多数创业建议乍一看似乎都很合理。“找到一个问题。” “解决自己的痛点。” “构建人们想要的东西。” 我遵循了这些建议,但仍然看到聪明的创始人,包括我自己,花了几个月时间构建的东西悄无声息地失败了。 这种矛盾让我感到困扰,因此我开始深入研究。我阅读了失败的事后分析、无果的产品发布、被遗弃的GitHub仓库,以及长长的Hacker News讨论串,里面的人们解释了为什么放弃某个想法。 经过一段时间,我发现了一个模式。问题不在于人们缺乏想法,而在于我们用讲故事的逻辑来评估想法,而不是用生存的逻辑。 我们选择那些听起来有趣、感觉雄心勃勃或在推介中看起来不错的想法,但一旦遇到现实世界的行为就会崩溃。 大多数想法失败的原因不是竞争或执行,而是它们并没有替代任何紧迫的需求。 它们无法与现有的习惯、重复的成本或某人已经在使用的痛苦的变通方法相匹配。 当你问一些简单的问题,比如谁在付费、他们在采用这个想法时停止做什么,以及为什么是现在,大多数想法很快就会崩溃。 为了避免重复这个错误,我开始将想法写成假设,而不是灵感。 每个想法都必须经受几个不舒服的问题:这个想法替代了什么现有行为、在前30天内会导致它失败的因素是什么,以及什么是可以证明或反驳需求的最小实验。 大多数想法立即失败。少数想法的存活时间超过了预期。 随着时间的推移,这变成了一个私人数据库,我用它来避免在弱想法上浪费数月时间。这不是一个“伟大想法”的集合。 它是经过严格筛选后存活下来的想法的记录,还有许多没有存活的想法。最终,我将其整理成一个其他人可以浏览的东西,现在称为startupideasdb.com(可以搜索一下),主要是因为我一直希望早些时候就有这样的东西。 如果你在选择构建什么时感到困惑,或者厌倦了那些悄然死去的聪明想法,这可能会为你节省一些时间。 如果你不同意这个框架,我真心希望了解它的缺陷,Hacker News通常能比其他地方更快发现问题。
4作者: wef大约 1 小时前原帖
Linux之所以如此成功的原因之一,是托瓦尔兹(Torvalds)坚持不破坏用户空间。 而Python的开发者们并没有遵循这一原则,也许我该放弃这个想法,我实在是厌倦了这种情况。 我们这一代人会记得从Python 2到3的动荡。突然间,生产代码需要进行大量重写。虽然我们从中得到了一个可以说更好的Python,但哦!那种痛苦真是难以忍受。 在3.14版本中,Python开发者决定将Process()方法的默认值从“fork”改为“forkserver”(这是用于启动子进程的 - 详细信息请参见:https://docs.python.org/3/library/multiprocessing.html)。为什么要以如此肆意的方式破坏我们的代码呢?为什么不保持默认设置不变——如果有人想使用“forkserver”,总是可以选择的。或者他们可以创建一个新的入口点,采用新的行为,比如Process_fastserver()之类的?哦不!就这样破坏它,让他们的用户拼命修补! 当我们采用一种语言时,我们希望今天能运行的代码明天也能运行——我30年前写的C和bash程序至今仍能运行。但Python就不一样了——如果你使用它,准备好并确保你的回归测试非常彻底,这将是一段艰难的旅程。 也许是慢慢来,破坏一些东西?
4作者: wek大约 3 小时前原帖
我们在与Claude Code进行迭代以构建完整上下文时,取得了最佳效果,然后在工作过程中使用并更新该上下文。 因此,我们开发了Nimbalyst,作为本地的所见即所得(WYSIWYG)编辑器和会话管理器,您可以在其中与Claude Code一起处理Markdown文档、图表、模型、数据模型、会话和代码。Nimbalyst让您能够: - 在一个集成工具中工作,充分利用您的所有上下文。 - 在用户界面中使用Claude Code的全部功能。 - 与Claude Code合作编写和编辑所见即所得的Markdown,查看AI的更改以红色/绿色标记,并批准这些更改。 - 与Claude Code一起迭代HTML模型,注释模型,然后将其作为人和Claude Code编程的上下文。 - 根据您的文档/代码构建数据模型,使用Claude Code进行迭代,并以标准格式导出它们。 - 在标准Markdown中集成mermaid图表、文本、表格、模型、数据模型和图像,以便为人类/AI提供上下文。 - 将会话与文档关联,查找并恢复会话,将会话视为上下文,运行并行会话。 - 在所有这些上下文中与Claude Code进行编码,使用/命令,查看git状态。 Nimbalyst目前处于测试阶段,支持本地使用且免费。我们非常期待您的反馈。