返回首页

一周热榜

25作者: krishadi1 天前原帖
想知道有哪些价格在100美元以下的物品让你的生活变得更好或产生了任何有意义的影响。<p>这是6年前的一个[讨论串](https://news.ycombinator.com/item?id=23363396)的复兴。觉得有新的回答会很有趣 :)
25作者: davelradindra4 天前原帖
我开发了 Nogic,这是一个目前用于 VSCode 的扩展,因为人工智能工具使得代码的增长速度超过了开发者在文件之间跳转时建立心理模型的速度。通过可视化结构,我能够更快地适应不熟悉的代码库。 目前这个工具还处于早期阶段,功能尚不完善,但可以使用。我非常希望能得到反馈,了解这个工具是否有用,以及哪些关系最值得可视化。
25作者: 19-844 天前原帖
Reddit的API在归档方面实际上已经失效。第三方应用程序已不复存在。Reddit多次威胁要切断对Pushshift数据集的访问。但目前有3.28TB的Reddit历史数据以种子的形式存在,我开发了一个工具,可以将其转化为您可以在自己的硬件上浏览的内容。 关键点:这个工具不会接触到Reddit的服务器。绝对不会。下载Pushshift数据集,在本地运行我的工具,获得一个完全可浏览的档案。可以在隔离的机器上运行,也可以在为您的局域网提供服务的树莓派上运行,甚至可以在您递给他人的USB驱动器上运行。 它的功能:从Reddit(.zst)、Voat(SQL)和Ruqqus(.7z)获取压缩数据转储,并生成静态HTML。没有JavaScript,没有外部请求,没有追踪。只需打开index.html即可浏览。想要搜索功能?运行带有PostgreSQL的可选Docker堆栈——仍然完全在您的机器上。 API与AI集成:完整的REST API,拥有30多个端点——帖子、评论、用户、子版块、全文搜索、聚合。还配备了一个MCP服务器(29个工具),以便您可以直接从AI工具查询您的档案。 自托管选项: - USB驱动器/本地文件夹(只需打开HTML文件) - 局域网内的家庭服务器 - Tor隐藏服务(2个命令,无需端口转发) - 带HTTPS的VPS - GitHub Pages用于小型档案 为什么这很重要:一旦您拥有数据,您就拥有它。没有API密钥,没有速率限制,没有服务条款的变化可以夺走它。 规模:每个实例数千万个帖子。PostgreSQL后端保持内存恒定,无论数据集大小如何。对于完整的23.8亿帖子数据集,可以按主题运行多个实例。 我是如何构建的:使用Python、PostgreSQL、Jinja2模板、Docker。在整个过程中使用Claude Code,作为AI辅助开发的实验。了解到工作流程是“信任但要验证”——它加速了无聊的部分,但您仍然拥有架构。 实时演示: [https://online-archives.github.io/redd-archiver-example/](https://online-archives.github.io/redd-archiver-example/) GitHub: [https://github.com/19-84/redd-archiver](https://github.com/19-84/redd-archiver)(公有领域) Pushshift种子:[https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4](https://academictorrents.com/details/1614740ac8c94505e4ecb9d88be8bed7b6afddd4)