返回首页

24小时热榜

15作者: injung大约 3 小时前原帖
目前,大家都在使用人工智能工具进行发货,而我却在这里使用一个可视化编辑器。不过,我认为许多团队都非常熟悉“市场部想要再次更改着陆页”这个问题。 多年来,我一直遇到这个问题。营销活动页面不断涌入,工程师被拉入其中,工单堆积如山。通常这些页面的组件都是相同的,只是重新排列了一下。 几年前,我在一家初创公司工作时,我们构建了一个内部工具来解决这个问题。你可以注册现有的 React 组件,它们会以拖放块的形式出现,最终结果是一个 JSX 字符串。无需学习任何模式,也不需要更改你的组件代码。 我们在生产环境中使用了这个工具,处理真实流量,环境复杂且遗留系统较多。它表现得很好。随着时间的推移,它支持了大约 60% 的流量。市场部可以在不提交工单的情况下发布页面,产品团队也可以进行布局级的 A/B 测试。这个经历最终促使我对其进行整理并开源。 Composify 介于无代码页面构建器和无头内容管理系统之间。像 Wix 或 Squarespace 这样的页面构建器提供拖放功能,但会将你锁定在他们的组件中。还有一些优秀的工具,如 Builder.io、Puck 和 Storyblok,但许多工具要求你将组件适配到他们的模型中。Composify 刻意保持简约:它允许你直接使用实际的生产组件。 目前还处于早期阶段。文档需要改进,还有一些粗糙之处。但它已经在生产环境中运行,并为我们解决了一个实际问题。如果你已经有了一个组件库,并希望非开发人员能够从中构建页面,那么它可能会很有用。 主页: [https://composify.js.org](https://composify.js.org) 欢迎提问或反馈!
7作者: jawuilp大约 23 小时前原帖
嗨,HN, 我开发这个扩展是因为频繁切换上下文严重影响了我的工作效率。每次我切换到浏览器分享编码更新(#BuildInPublic)时,往往会无意识地刷屏20分钟,导致工作状态被打断。 由于现有的扩展在X API v2更新后无法使用,我决定自己构建一个解决方案,专注于隐私和免费套餐的限制。 它的工作原理如下: 自带密钥(BYOK):使用您自己的API凭证。 安全性:密钥保存在本地,使用vscode.SecretStorage(绝不存储在settings.json中)。 限制:它实现了一个本地计数器,以遵循免费API套餐严格的17条推文/24小时限制。 只写:它故意不读取您的时间线,以帮助您保持专注。 这是一个开源项目,也是我第一个扩展。欢迎对代码结构提出反馈! 市场链接: [https://marketplace.visualstudio.com/items?itemName=Jawuilp.x-writer](https://marketplace.visualstudio.com/items?itemName=Jawuilp.x-writer) 代码库: [https://github.com/Jawuilp/X-writer](https://github.com/Jawuilp/X-writer)
7作者: math-hiyoko大约 23 小时前原帖
我为Python构建了一个基于Rust的Wavelet Matrix库。<p>令人惊讶的是,Python中可用的实际Wavelet Matrix实现非常少,因此我实现了一个,重点关注性能、可用性和类型化API。它支持快速的排名/选择、前k个元素、分位数、范围查询,甚至动态更新。<p>欢迎反馈!
6作者: sidmanchkanti21大约 3 小时前原帖
嗨,HN,我们是Sid和Ritvik,Pulse的联合创始人。Pulse是一个文档提取系统,旨在生成适合大型语言模型(LLM)的文本。我们创建Pulse是因为意识到,尽管现代视觉语言模型在生成合理文本方面表现出色,但这也使得它们在大规模光学字符识别(OCR)和数据摄取中存在风险。 当我们开始进行文档提取时,我们假设与今天许多团队一样:基础模型正在快速改进,多模态系统似乎能够很好地读取文档,对于小型或干净的输入,这一假设往往成立。然而,当我们开始处理真实文档的大量数据时,这些局限性显现出来。长PDF、密集表格、混合布局、低质量扫描以及财务或运营数据暴露出一些微妙、难以检测且修正成本高昂的错误。输出结果往往看起来合理,但在表格和数字字段中却包含一些小但重要的错误。 自那时以来,我们的许多工作都是应用研究。我们对复杂文档进行受控评估,微调视觉模型,并构建真实情况至关重要的标注数据集。我们的团队曾多次熬夜手动标注页面,围绕表格绘制边框,逐点标记图表,或讨论某个数字是否不可读或仅仅是扫描效果差。这一过程在很大程度上塑造了我们的直觉,远比单纯的基准测试更为深刻。 很快我们意识到,核心挑战并不在于提取本身,而在于信心。视觉语言模型将文档图像嵌入到高维表示中,这些表示优化了语义理解,而非精确转录。这一过程本质上是有损的。当不确定性出现时,模型倾向于使用学习到的先验来解决,而不是揭示模糊性。这种行为在消费场景中可能是有益的,但在生产流程中却会造成难以扩展的验证问题。 Pulse的诞生旨在通过系统设计来弥补这一差距,而不仅仅依赖提示。系统将文档理解视为一个分离的过程,布局分析与语言建模相分离。文档被规范化为结构化表示,以保留层次和表格,然后再进行模式映射。提取受到预先定义的模式的约束,提取的值与源位置关联,以便可以检查不确定性,而不是简单地猜测。实际上,这导致了一种混合方法,结合了传统计算机视觉技术、布局模型和视觉语言模型,因为没有单一的方法能够可靠地处理这些情况。 我们故意分享了一些反映激励我们进行此项工作的输入类型的文档。这些文档代表了我们看到的通用OCR或基于VLM的管道所面临的困难案例。 以下是一个财务10K报告: <a href="https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example1">https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example1</a> 以下是一份报纸: <a href="https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example2">https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example2</a> 以下是一份租金清单: <a href="https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example3">https:&#x2F;&#x2F;platform.runpulse.com&#x2F;dashboard&#x2F;examples&#x2F;example3</a> Pulse并不完美,特别是在高度退化的扫描或不常见的手写体上,仍然有改进的空间。我们的目标并不是完全消除错误,而是让错误可见、可审计,并更容易进行推理。 Pulse通过基于使用的API和平台访问提供。您可以在这里试用,并在这里访问API文档。 演示链接在这里: <a href="https:&#x2F;&#x2F;video.runpulse.com&#x2F;video&#x2F;pulse-platform-walkthrough-69f9">https:&#x2F;&#x2F;video.runpulse.com&#x2F;video&#x2F;pulse-platform-walkthrough-...</a> 我们希望听听其他人在文档提取中如何评估正确性,您在实践中遇到的失败模式,以及您依赖哪些信号来判断输出是否可信。我们会在这里回答问题,并乐意处理其他文档,如果有人想分享示例。
6作者: timatping大约 4 小时前原帖
嗨,HN!我们创建了 DNS Directory(<a href="https://dnsdirectory.com" rel="nofollow">https://dnsdirectory.com</a>),这是一个免费的、可搜索的公共 DNS 服务器数据库,每 10 分钟进行一次实时监测。 我们需要找到一个全球运营商使用的最新 DNS 服务器列表,以便用于代理指纹识别/网络爬虫项目,但我们惊讶地发现这样的列表并不存在,因此我们在一次内部黑客马拉松中自己构建了这个数据库。 我们正在添加更多功能,但到目前为止,我们已经: - 每 ~10 分钟测试超过 77,000 个服务器 - 允许按正常运行时间、位置、安全功能(广告拦截、恶意软件保护、DNSSEC)进行筛选 - 显示 IPv6 支持、Anycast 等信息 - 显示所有历史测试信息 我们没有计划将网站商业化,它将保持免费,以便作为公共资源使用。 我很想听听大家对我们改进网站的建议。网站目前可以正常运行,但某些功能,比如内容过滤检测,仍有待完善。我们希望在亚洲和美国增加测试节点,以便提供更好的覆盖,目前我们只从阿姆斯特丹进行测试。 如果您想要添加一个网站上尚未列出的 DNS 服务器,可以通过表单提交。如果您是一个大型组织,有很多服务器需要添加,可以通过 support@dnsdirectory.com 给我发邮件,我们会将其纳入。 谢谢!
4作者: tiazm大约 2 小时前原帖
我在分析和高级分析领域工作了大约六年。我最开始在一家大型咨询公司工作,后来选择了独立发展,因此我对大型企业和小型产品团队都有深入的了解。 有件事一直困扰着我。在大多数项目中,分析似乎是一种基础设施,没人对此真正感到兴奋。在构建产品时,人们很少愿意在分析上投入资金。它被视为一种“必须拥有”的东西,而不是“想要拥有”的东西。 团队“乐于”为软件开发、广告、文案撰写和设计支付费用。这些被认为是直接有用的。而分析(如GA4、事件跟踪,甚至更结构化的设置如CDP)常常被视为背景噪音,虽然是保持引擎运转所必需的,但并不是每天能真正推动产品前进的东西。 实际上,许多团队最终只使用少数几个指标来做决策,即使在复杂的分析架构之下。其余的数据只是“以防万一”。 我很好奇其他人是否也看到同样的模式。分析是否被低估,因为它的投资回报率是间接和延迟的?还是大多数分析工作实际上只是为了团队所做的决策而过度设计?在什么情况下,分析会从“必要的管道”转变为真正的竞争优势? 我很想听听创始人、工程师和产品人员的看法,尤其是那些已经构建和扩展过产品的人。