返回首页
24小时热榜
<i>Signal的创始人莫克西·马林斯派克希望为人工智能做的事情,正如他为消息传递所做的一样</i> - <a href="https://arstechnica.com/security/2026/01/signal-creator-moxie-marlinspike-wants-to-do-for-ai-what-he-did-for-messaging/" rel="nofollow">https://arstechnica.com/security/2026/01/signal-creator-moxi...</a><p><i>私人推理</i>: <a href="https://confer.to/blog/2026/01/private-inference/" rel="nofollow">https://confer.to/blog/2026/01/private-inference/</a>
Reddit的API在归档方面实际上已经失效。第三方应用程序已不复存在。Reddit多次威胁要切断对Pushshift数据集的访问。但目前有3.28TB的Reddit历史数据以种子的形式存在,我开发了一个工具,可以将其转化为您可以在自己的硬件上浏览的内容。
关键点:这个工具不会接触到Reddit的服务器。绝对不会。下载Pushshift数据集,在本地运行我的工具,获得一个完全可浏览的档案。可以在隔离的机器上运行,也可以在为您的局域网提供服务的树莓派上运行,甚至可以在您递给他人的USB驱动器上运行。
它的功能:从Reddit(.zst)、Voat(SQL)和Ruqqus(.7z)获取压缩数据转储,并生成静态HTML。没有JavaScript,没有外部请求,没有追踪。只需打开index.html即可浏览。想要搜索功能?运行带有PostgreSQL的可选Docker堆栈——仍然完全在您的机器上。
API与AI集成:完整的REST API,拥有30多个端点——帖子、评论、用户、子版块、全文搜索、聚合。还配备了一个MCP服务器(29个工具),以便您可以直接从AI工具查询您的档案。
自托管选项:
- USB驱动器/本地文件夹(只需打开HTML文件)
- 局域网内的家庭服务器
- Tor隐藏服务(2个命令,无需端口转发)
- 带HTTPS的VPS
- GitHub Pages用于小型档案
为什么这很重要:一旦您拥有数据,您就拥有它。没有API密钥,没有速率限制,没有服务条款的变化可以夺走它。
规模:每个实例数千万个帖子。PostgreSQL后端保持内存恒定,无论数据集大小如何。对于完整的23.8亿帖子数据集,可以按主题运行多个实例。
我是如何构建的:使用Python、PostgreSQL、Jinja2模板、Docker。在整个过程中使用Claude Code,作为AI辅助开发的实验。了解到工作流程是“信任但要验证”——它加速了无聊的部分,但您仍然拥有架构。
实时演示: [https://online-archives.github.io/redd-archiver-example/](https://online-archives.github.io/redd-archiver-example/)
GitHub: [https://github.com/19-84/redd-archiver](https://github.com/19-84/redd-archiver)(公有领域)
Pushshift种子:[https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4](https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4)