返回首页

24小时热榜

35作者: vednig大约 7 小时前原帖
<i>Signal的创始人莫克西·马林斯派克希望为人工智能做的事情,正如他为消息传递所做的一样</i> - <a href="https:&#x2F;&#x2F;arstechnica.com&#x2F;security&#x2F;2026&#x2F;01&#x2F;signal-creator-moxie-marlinspike-wants-to-do-for-ai-what-he-did-for-messaging&#x2F;" rel="nofollow">https:&#x2F;&#x2F;arstechnica.com&#x2F;security&#x2F;2026&#x2F;01&#x2F;signal-creator-moxi...</a><p><i>私人推理</i>: <a href="https:&#x2F;&#x2F;confer.to&#x2F;blog&#x2F;2026&#x2F;01&#x2F;private-inference&#x2F;" rel="nofollow">https:&#x2F;&#x2F;confer.to&#x2F;blog&#x2F;2026&#x2F;01&#x2F;private-inference&#x2F;</a>
25作者: 19-84大约 6 小时前原帖
Reddit的API在归档方面实际上已经失效。第三方应用程序已不复存在。Reddit多次威胁要切断对Pushshift数据集的访问。但目前有3.28TB的Reddit历史数据以种子的形式存在,我开发了一个工具,可以将其转化为您可以在自己的硬件上浏览的内容。 关键点:这个工具不会接触到Reddit的服务器。绝对不会。下载Pushshift数据集,在本地运行我的工具,获得一个完全可浏览的档案。可以在隔离的机器上运行,也可以在为您的局域网提供服务的树莓派上运行,甚至可以在您递给他人的USB驱动器上运行。 它的功能:从Reddit(.zst)、Voat(SQL)和Ruqqus(.7z)获取压缩数据转储,并生成静态HTML。没有JavaScript,没有外部请求,没有追踪。只需打开index.html即可浏览。想要搜索功能?运行带有PostgreSQL的可选Docker堆栈——仍然完全在您的机器上。 API与AI集成:完整的REST API,拥有30多个端点——帖子、评论、用户、子版块、全文搜索、聚合。还配备了一个MCP服务器(29个工具),以便您可以直接从AI工具查询您的档案。 自托管选项: - USB驱动器/本地文件夹(只需打开HTML文件) - 局域网内的家庭服务器 - Tor隐藏服务(2个命令,无需端口转发) - 带HTTPS的VPS - GitHub Pages用于小型档案 为什么这很重要:一旦您拥有数据,您就拥有它。没有API密钥,没有速率限制,没有服务条款的变化可以夺走它。 规模:每个实例数千万个帖子。PostgreSQL后端保持内存恒定,无论数据集大小如何。对于完整的23.8亿帖子数据集,可以按主题运行多个实例。 我是如何构建的:使用Python、PostgreSQL、Jinja2模板、Docker。在整个过程中使用Claude Code,作为AI辅助开发的实验。了解到工作流程是“信任但要验证”——它加速了无聊的部分,但您仍然拥有架构。 实时演示: [https://online-archives.github.io/redd-archiver-example/](https://online-archives.github.io/redd-archiver-example/) GitHub: [https://github.com/19-84/redd-archiver](https://github.com/19-84/redd-archiver)(公有领域) Pushshift种子:[https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4](https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4)