我们最近进行了深入的基准测试,将Docsumo的专有OCR技术与Mistral OCR和Landing AI的Agentic文档提取进行了比较。我们的目标是评估它们在实际文档处理任务中的表现,特别是在复杂布局和低质量扫描的情况下。
<p>主要发现:</p>
<p>准确性:Docsumo的OCR在各种文档类型(包括发票和银行对账单)的文本提取中表现出更高的精确度。</p>
<p>布局保持:我们的技术更有效地保持了文档的原始结构,确保提取数据的可用性更好。</p>
<p>处理速度:Docsumo实现了更快的处理时间,使其更适合高容量的文档处理任务。</p>
<p>为了确保透明性和可重复性,我们已将基准测试结果公开。您可以在这里查看并排的输出、准确性评分和布局比较:</p>
<p><a href="https://huggingface.co/spaces/avinash112/ocr-benchmark" rel="nofollow">https://huggingface.co/spaces/avinash112/ocr-benchmark</a></p>
<p>有关我们方法论和详细发现的全面分析,请参阅我们的完整报告:</p>
<p>[插入博客链接]</p>
<p>我们邀请社区审查我们的发现,并分享对生成式OCR工具在生产环境中准备情况的见解。它们真的能胜任这个任务吗?</p>
返回首页
最新
嗨,HN!<p>今天我很高兴地推出 OpenNutrition:一个免费的、遵循 ODbL 许可的日常通用、品牌和餐厅食品的营养数据库,一个可以浏览网络以导入新食品的搜索引擎,以及一个将数据库和搜索功能整合为免费的宏观追踪应用的伴侣应用。<p>持续记录你所吃的食物已被证明有助于长期健康结果(1)(2),但轻松做到这一点依赖于拥有一个大型、准确且最新的营养数据库。免费的公共数据库往往过时、难以导航,并且缺乏关键的覆盖(如品牌餐厅食品)。用户生成的数据库可能不可靠或是闭源的。商业数据库则伴随持续的、通常是按座位收费的许可费用,以及限制创新的使用限制。<p>作为一名业余的力量举运动员和长期保持体重的人,帮助他人追求健康目标是我非常关心的事情。在去年退出我的上一家初创公司后,我想探讨使用大语言模型(LLMs)创建所需的数据库和基础设施,以打造一个优秀的食品记录应用,并使其成本工程化,以便免费和广泛分发,因为我相信这些工具的可用性是公共利益。这促成了我今天发布的数据集;营养数据是公共记录,其组织和传播也应该如此。<p>数据库中有什么?<p>- 5,287 种常见日常食品,3,836 种准备好的通用餐厅食品,以及来自约 50 家美国热门餐厅连锁的 4,182 种独特菜单项;食品具有标准化名称、一致的数值份量、估计的微量营养素轮廓、描述,以及尽可能引用 USDA、AUSNUT、FRIDA、CNF 等的来源。<p>- 313,442 种最受欢迎的美国品牌超市产品,具有标准化名称、解析的份量和添加剂/过敏原数据,基于品牌的 USDA 数据;最受欢迎的 1% 产品有估计的微量营养素数据,目标是实现全面覆盖。<p>即使是最大的商业数据库,在搜索没有现有覆盖的食品或自定义时也可能令人沮丧。为了解决这个问题,我创建了一个实时版本,使用与构建核心数据库相同的方法,可以在需要时浏览网络以了解新食品或食品自定义(例如,高度定制的星巴克订单)。网络上有一个有限的演示,在应用内你可以通过文本搜索、条形码扫描或图像记录食品,所有这些都可以在需要时搜索网络为你导入食品。通过这些搜索发现的食品会反馈到数据库中,我计划在覆盖范围扩大时发布更新版本。<p>- 搜索与探索: <a href="https://www.opennutrition.app/search" rel="nofollow">https://www.opennutrition.app/search</a><p>- 方法论/关于: <a href="https://www.opennutrition.app/about" rel="nofollow">https://www.opennutrition.app/about</a><p>- 获取 iOS 应用: <a href="https://apps.apple.com/us/app/opennutrition-macro-tracker/id6670272666">https://apps.apple.com/us/app/opennutrition-macro-tracker/id...</a><p>- 下载数据集: <a href="https://www.opennutrition.app/download" rel="nofollow">https://www.opennutrition.app/download</a><p>OpenNutrition 的 iOS 应用提供免费的基本记录和有限数量的主动搜索功能,以及支出追踪和持续的饮食建议,类似于一流的付费应用。付费层($49/年)解锁额外的搜索和功能(数据备份、优先覆盖记录食品的微量营养素),并帮助资助进一步开发和更广泛的库覆盖。<p>我很想听听你的反馈、问题和建议——无论是关于数据库本身、一个非常好的/糟糕的搜索结果,还是应用。<p>1. Burke 等人,2011,<a href="https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3268700/" rel="nofollow">https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3268700/</a><p>2. Patel 等人,2019,<a href="https://mhealth.jmir.org/2019/2/e12209/" rel="nofollow">https://mhealth.jmir.org/2019/2/e12209/</a>
hCaptcha Challenger 利用多模态大型语言模型(MLLMs)的空间思维链(SCoT)推理能力,构建了一种自主工作流程框架。该架构使自主智能体能够在多样的空间视觉任务中通过动态问题解决工作流程进行零-shot 适应,消除了对特定任务微调或额外训练参数的需求。
我几年前制作了这个工具,最近才有时间将其完善到可以分享的程度:<a href="https://github.com/pangolinsec/shihtzu" rel="nofollow">https://github.com/pangolinsec/shihtzu</a>
这个工具解析 ldapsearch 或 dsquery 的输出,并生成带有一些额外逻辑的 markdown 文件,以便在使用 Obsidian 打开文件夹并使用图形视图时可视化嵌套的成员关系——从某种意义上说,它有点像一个功能较弱的 Bloodhound(<a href="https://github.com/SpecterOps/BloodHound" rel="nofollow">https://github.com/SpecterOps/BloodHound</a>),但它的噪音要小得多。它还解析 `useraccountcontrol` 以及 Active Directory 中一些与登录相关的属性,以自动标记对攻击者特别有趣或不感兴趣的账户。
一些核心功能:
- 从文本文件中解析 LDAP 属性到结构化的 Obsidian markdown
- 智能地将对象分类为用户、组或计算机
- 自动识别管理员及其管理权限
- 检测潜在的风险账户配置(过期账户、低登录次数)
- 在相关对象之间创建 Obsidian 链接以实现网络可视化
- 处理 UserAccountControl (UAC) 值并提供解释
- 将 Windows 时间戳转换为人类可读的格式
- 智能追加模式,仅将新数据添加到现有文件
- 标签功能,便于在 Obsidian 中进行过滤和搜索
这并不是新颖的想法,但在某些情况下对我非常有用。
Shortwave,这款(至今为止)最有前景的电子邮件客户端,继承了令人怀念且至今无可替代的谷歌收件箱的优良基因,最近却移除了行业标准的侧边栏,该侧边栏显示了诸如收件箱或归档等邮件标签及其数量。当被问及这一令人不安的举动时,公司回应称这是必要的,因为需要腾出空间来为“即将推出的人工智能功能”做准备。难道大家真的完全失去理智了吗?我们是否正接近人工智能产品的NFT阶段?
抛弃 Burp Suite 的臃肿,选择 zxc,这是一款基于 Rust 构建的终端代理,利用 tmux 和 Vim 拦截 HTTP/S 和 WebSocket 流量。它能够快速、轻量地捕获请求,便于调试、安全测试或调整。
# 主要特性
- 磁盘魔法:轻松存储大量数据集,支持超过 10 万条记录。
- 插件:通过默认支持 ffuf 和 sqlmap 提升工作效率,或自定义插件以增加乐趣。
- 缓冲区调整:在拦截器/重发器中通过弹出窗口编辑变量(例如,b:host, b:scheme),以修改请求。
- 配置控制:使用 TOML 文件进行全局配置($HOME/.config/zxc/config.toml)或每个会话的调整。
- 内容过滤:根据请求的 Content-Type 头跳过请求。
- 域过滤:选择性地包含或排除特定域,提供对代理或转发流量的细粒度控制,支持通配符如 *.example.com。
- 动态编辑配置:从历史记录中实时调整会话设置,修改立即生效,若在外部编辑则需手动刷新。
- 编码技巧:在可视模式下进行 Base64 或 URL 编码/解码,隐秘而强大。
- 扩展属性:通过自动标记关键元数据(例如,user.host, user.http)的 `.req` 文件来增强工作流程——打破沙盒限制,与脚本或分析工具等外部工具实现强大集成。
- 扩展过滤:根据请求内容的扩展名(如 `.mp3`, `.mp4` 等)跳过请求。
- 历史显示过滤:使用 Vim 正则表达式根据主机、URI 或状态码调整历史日志。
- 历史窗口:实时查看和过滤所有流量。
- 拦截队列:实时管理待处理的请求和响应——查看队列中的方案和主机详细信息,然后在拦截器窗口中转发、丢弃或调整它们。
- 格式错误请求:自定义 HTTP/1.1 解析器,用于发送奇特的安全测试请求。
- 重发器窗口:轻松重发和调整 HTTP 或 WebSocket 请求。
- 请求共享:在窗口之间自由共享请求,实现无缝调整和测试。
- 搜索超级功能:搜索请求或响应并添加到 Vim 的快速修复/位置列表中。
- 会话管理:创建命名会话并附加到旧会话,以无缝恢复工作。
- 流量拦截:在 Vim 中实时编辑请求和响应。
- WebSocket 历史:清晰、组织良好的所有 WebSocket 流量历史视图,使用 `.whis` 文件进行全面概览,或使用 `.wsess` 文件深入单会话细节。
- WebSocket:代理和重放 WebSocket 流量。
有关完整的功能列表和截图,请参考该仓库,<a href="https://github.com/hail-hydrant/zxc" rel="nofollow">https://github.com/hail-hydrant/zxc</a>。