返回首页
最新
相关链接:<a href="https://xcancel.com/vmfunc/status/2003292986650853825" rel="nofollow">https://xcancel.com/vmfunc/status/2003292986650853825</a><p><a href="https://old.reddit.com/r/law/comments/1ptlms6/some_epstein_files_can_be_unredacted/" rel="nofollow">https://old.reddit.com/r/law/comments/1ptlms6/some_epstein_files_can_be_unredacted/</a><p><a href="https://krassencast.com/p/breaking-we-just-unredacted-the-epstein" rel="nofollow">https://krassencast.com/p/breaking-we-just-unredacted-the-epstein</a>
嗨,HN,
和很多人一样,我对发布的爱泼斯坦/麦克斯韦法庭文件感到沮丧,因为它们大多数是没有文本层的扫描图像(PDF),这使得无法进行Ctrl+F搜索或程序化分析。
我使用Python、Tesseract和OpenSearch构建了一个处理流程来解决这个问题。
网站: [https://epsteinfilez.com](https://epsteinfilez.com)
技术栈:
- 数据处理:使用ocrmypdf(Tesseract)的Python工作进程对原始文件进行并行OCR处理。
- 搜索:使用OpenSearch对提取的文本进行索引。
- 前端:使用Next.js(SSR)构建用户界面。
- 基础设施:自托管的Docker集群。
功能:
- 在大约15,000页上实现亚秒级全文搜索。
- 在PDF页面上直接高亮搜索词。
- 深度链接到特定页面/文档。
这是一款透明度工具,而非政治工具。我希望让原始的主要来源对研究人员和记者可访问。
欢迎对搜索相关性或索引流程提供反馈!
我曾经为一个每月收入为零的副项目支付200美元的分析费用。然后我花了两个小时尝试在GA4中配置一个简单的漏斗,最终决定自己动手开发一个。
Prysm是我希望存在的工具:
- 实时3D访客位置全球地图(使用Three.js和WebGL着色器)
- 3.8kb的跟踪脚本,远低于GA的45kb——纯JavaScript,无依赖
- 无需使用Cookies/指纹识别——无需同意横幅
- AI聊天功能,回答问题(“为什么流量激增?”)
- 自动时间线:首位客户、收入目标、流量事件
有趣的部分:
- 在处理单页应用(SPA)、离线模式和自定义事件的同时,保持跟踪脚本在200行以内
- 使用GPT-4o-mini处理简单查询,将成本控制在每位客户每月9美元
- 为全球地图构建连接池(最多5个并发连接,以避免压垮Supabase实时服务)
技术栈:Next.js、Supabase、Mapbox、OpenAI
定价:每月9.99–29.99美元,面向独立开发者
目前处于私人测试阶段。是什么让你最终决定从当前的分析工具切换到这个呢?