返回首页
一周热榜
大家好,分享我最近找到的替代方案,适用于 Elasticsearch、CloudWatch 等那些需要高额云费用或管理解决方案成本更高的服务。这是一种已知的模式,但可能不够广为人知:将日志写入 S3 作为持久存储,使用 Parquet 格式并通过 DuckDB 快速查询。这已经成为我所有副项目中处理日志的主要方式,我再也不用担心丢失日志,并且可能还可以免费存储。
<p>功能<p>
<pre><code> 格式无关 - 通过可配置字段提取,支持任何 JSON 日志格式
快速 - 每秒处理 28K+ 条目
高效 - 使用 Parquet + Snappy(压缩比 3.7x)
快速查询 - DuckDB 在 56K 日志上查询时间小于 50ms
兼容 S3 - 支持 AWS S3、MinIO、DigitalOcean Spaces、R2 等
分区 - 按日期/级别进行 Hive 风格的分区(无冗余的部分后缀)
自动刷新 - 可配置的自动刷新(默认:90秒)
去重 - 可选去重
</code></pre>
欢迎随时询问有关内部实现的问题。
图像/视频/音频生成的人工智能确实令人印象深刻,但我实在无法理解为什么还有人会相信大型语言模型(LLMs)会取代所有其他白领工作……更不用说会导致通用人工智能(AGI)了。
现在是2026年,我们仍然没有看到任何大型语言模型完成像打败《宝可梦蓝版》这样简单的任务。
看来大型语言模型实际上只是一些愚蠢的文本生成器,最多只擅长三件事:
- 生成代码
- 翻译/总结文本
- 伪“谷歌搜索”(因为真正的谷歌搜索已经变得糟糕透顶)