85作者: vinni22 个月前原帖
相关链接:<a href="https://xcancel.com/vmfunc/status/2003292986650853825" rel="nofollow">https://xcancel.com/vmfunc/status/2003292986650853825</a><p><a href="https://old.reddit.com/r/law/comments/1ptlms6/some_epstein_files_can_be_unredacted/" rel="nofollow">https://old.reddit.com/r/law/comments/1ptlms6/some_epstein_files_can_be_unredacted/</a><p><a href="https://krassencast.com/p/breaking-we-just-unredacted-the-epstein" rel="nofollow">https://krassencast.com/p/breaking-we-just-unredacted-the-epstein</a>
2作者: ProbDashAI2 个月前原帖
嗨,HN, 和很多人一样,我对发布的爱泼斯坦/麦克斯韦法庭文件感到沮丧,因为它们大多数是没有文本层的扫描图像(PDF),这使得无法进行Ctrl+F搜索或程序化分析。 我使用Python、Tesseract和OpenSearch构建了一个处理流程来解决这个问题。 网站: [https://epsteinfilez.com](https://epsteinfilez.com) 技术栈: - 数据处理:使用ocrmypdf(Tesseract)的Python工作进程对原始文件进行并行OCR处理。 - 搜索:使用OpenSearch对提取的文本进行索引。 - 前端:使用Next.js(SSR)构建用户界面。 - 基础设施:自托管的Docker集群。 功能: - 在大约15,000页上实现亚秒级全文搜索。 - 在PDF页面上直接高亮搜索词。 - 深度链接到特定页面/文档。 这是一款透明度工具,而非政治工具。我希望让原始的主要来源对研究人员和记者可访问。 欢迎对搜索相关性或索引流程提供反馈!