7作者: jarodxuming10 个月前原帖
我们刚刚在Trickle中全面支持DeepSeek V3 0324,Trickle是为非开发者设计的编码助手。<p>在接下来的72小时内,我们将提供完全免费的无限制访问此集成的机会。Trickle帮助任何人将想法转化为可运行的代码——无需编程背景。<p>我们非常希望得到HN社区的反馈,以便改进那些想要构建但没有编码背景的人的使用体验。
2作者: andy8910 个月前原帖
我们构建了一个简单的 SAML 测试工具,您可以在无需注册的情况下配置身份提供者(IDP)和服务提供者(SP)设置。非常适合快速测试 SAML 实现或进行配置实验。 主要功能: - 配置 IDP 元数据、实体 ID 和重定向 URL - 测试 SP 设置(ACS URL、实体 ID、属性映射) - 可选的 SCIM 配置用于目录同步 - 无需账户 - 只需打开即可开始测试 - 完全免费使用 欢迎尝试,并告诉我们如何为开发者社区改进该工具!
1作者: cpcdoy10 个月前原帖
嘿,HN!我最近发表了一篇题为《空间文本渲染:推动大语言模型空间理解的极限》的文章,在文中我分享了一种我已经使用了一段时间的技术,旨在帮助仅处理文本的大语言模型(LLMs)处理视觉上复杂的文档,这在视觉语言模型(VLMs)可用之前就已经开始了。我认为这对任何从事文档处理工作的人都可能有帮助! <p>摘要:本文介绍了空间文本渲染(STR)方法,它通过保留赋予文档意义的关键空间信息,弥合了视觉复杂文档与仅文本大语言模型之间的鸿沟。尽管视觉语言模型(VLMs)在不断进步,但我们需要一种能够处理中东和北非地区(MEA)复杂金融文档的即时解决方案(但不限于此),包括阿拉伯文本和混合的从右到左的书写方式。STR利用图像处理技术提取文档的基础结构,并将其渲染为大语言模型可以理解的空间感知文本。 <p>关键点和亮点: <p>- 金融文档面临独特的挑战:复杂的布局、混合语言以及需要绝对精确的数据 <p>- 空间文本渲染包括:文档预处理/去斜、带空间坐标的光学字符识别(OCR)、结构提取和结构线检测 <p>- 我们使用基于文本的渲染方法,将视觉结构转换为大语言模型在预训练中已经理解的格式 <p>- 压缩过程显著减少了令牌的使用,同时保留了关键信息 <p>- 测试显示在多个大语言模型(如Claude、GPT-4o等)上取得了优异的结果,即使没有进行微调 <p>- 该方法为文档处理提供了即时解决方案,同时视觉语言模型仍在不断发展并变得更加经济实用 <p>开放讨论:我观察到的一个有趣方面是,许多大语言模型似乎仅凭其预训练就具备了强大的空间推理能力,尽管它们并没有专门针对这一任务进行训练。这表明,大语言模型可能通过仅文本的训练吸收了比之前认为的更多的空间理解。我很好奇其他人是否也观察到并利用了类似的能力? <p>欢迎分享你的想法!