2作者: hilti大约 2 个月前原帖
我们持续将数据传输到云端进行分析,但现代的Mac电脑拥有足够的性能,可以在毫秒级别内本地查询数百万行数据。即使是8GB的MacBook Neo也能做到。 我开发ColumnLens是因为我希望停止将敏感数据上传到SaaS工具,仅仅为了执行一个GROUP BY操作。它是一款本地C++桌面应用,能够在大约3秒内打开超过5GB的CSV、JSONL、Parquet和Excel文件,然后让你使用DuckDB的完整SQL引擎进行查询——包括JOIN、CTE、窗口函数,所有操作都在你的机器上进行。 这个想法很简单:你的笔记本电脑完全可以作为一个优秀的分析工作站。你不应该需要一个云管道来查看你的数据。 在开发过程中我学到的一些事情: - DuckDB的列式引擎效率极高。处理1200万行数据,查询时间在一秒以内,内存使用不到1GB,且硬件可以放进背包里。 - ImGui + OpenGL是数据密集型桌面应用的绝佳组合。没有DOM,没有布局引擎的开销——只有原始的GPU渲染。数据网格可以滚动1200万行而没有任何帧丢失。 - 我添加了一个“3D城市视图”,将行数据映射到建筑物(高度=一列,颜色=另一列)。听起来像是噱头,但异常值和聚类在这种视图中立刻显现出来,而在表格或图表中则不易察觉。我们的脑子擅长在天际线中识别高楼。 - Lua脚本的实用性超出了预期。人们编写小脚本从API获取数据、运行查询和配置图表——在应用内进行可重复的分析。 - 一切都在本地运行。零遥测,零网络调用。二进制文件大小为33MB,静态链接。 可以在<a href="https://columnlens.com" rel="nofollow">https://columnlens.com</a>免费下载。 我很想听听其他正在开发本地优先数据工具的人的想法——我认为“将一切都上传到云端”的时代正在开始回归。
4作者: zof3大约 2 个月前原帖
其他所有知名的模型提供商都在持续推出新产品;xAI发生了什么?他们的模型从来不是最好的,但现在却被彻底甩在了后面。<p>这里有人在积极使用Grok模型吗?<p>SpaceX的合并刚刚发生,这是否是他们在过去五个月没有发布任何新产品的原因之一?
71作者: ndr42大约 2 个月前原帖
<a href="https://www.ft.com/content/7cab4ec7-4712-4137-b602-119a44f771de" rel="nofollow">https://www.ft.com/content/7cab4ec7-4712-4137-b602-119a44f77...</a> (<a href="https://archive.ph/wXvF3" rel="nofollow">https://archive.ph/wXvF3</a>)<p><a href="https://twitter.com/lukolejnik/status/2031257644724342957" rel="nofollow">https://twitter.com/lukolejnik/status/2031257644724342957</a> (<a href="https://xcancel.com/lukolejnik/status/2031257644724342957" rel="nofollow">https://xcancel.com/lukolejnik/status/2031257644724342957</a>)
8作者: dougdonohoe大约 2 个月前原帖
我对照片分享网站感到很沮丧。苹果的iCloud共享相册加载需要20秒以上,而其他网站则充满了广告、繁琐的用户界面或社交媒体的干扰。我只想快速、移动友好且无干扰地与朋友和家人分享照片。 于是我构建了DD Photos。你可以将照片从你已经使用的任何工具(如Lightroom、Apple Photos等)导出到文件夹中,然后运行`photogen`(一个Go命令行工具)将它们调整为WebP格式并生成JSON索引,最后将SvelteKit静态网站部署到任何可以提供文件的地方,比如Apache、S3等。没有服务器端代码,也没有数据库。 这个项目花了几周时间完成,期间我大量使用了Claude Code,我发现它在这个涉及Go、SvelteKit/TypeScript、Apache配置、Docker和Playwright测试的全栈项目中非常有用。也很乐意讨论这段经历。 在线示例: [https://photos.donohoe.info](https://photos.donohoe.info) 代码库: [https://github.com/dougdonohoe/ddphotos](https://github.com/dougdonohoe/ddphotos)
7作者: asabil大约 2 个月前原帖
嗨,HN, 我想分享一下我过去几个月一直在做的项目:一个用于嵌入式Linux系统的固件分析器,它可以帮助发现安全问题,并且完全在浏览器中运行。 这是一个非常早期的Alpha版本,可能会有些粗糙。但我认为它已经提供了相当大的价值。 所以请随意上传一个固件(目前只支持.tar格式的rootfs归档),试着找出其中的问题吧 :)
8作者: ethan_zhao大约 2 个月前原帖
我运营着3mins.news(https://3mins.news),这是一个完全基于Cloudflare Workers构建的人工智能新闻聚合器。后端有10多个定时任务每几分钟运行一次,包括RSS抓取、文章聚类、LLM调用和电子邮件发送。 问题是:Workers付费计划有严格的月度限制(1000万次请求、100万次KV写入、100万次队列操作等)。没有内置的“达到限制时暂停”功能——Cloudflare会直接开始计费超出部分。KV写入超出限制后每百万次需支付5美元,因此重试循环的错误可能会迅速变得昂贵。 AWS有预算警报,但这些只是被动通知——等你读到邮件时,损失已经发生。我想要的是主动的、应用级别的自我保护。 因此,我构建了一个面向内部的断路器——它不是用来防止下游故障(Hystrix模式),而是监控我自己的资源消耗,并在达到上限之前优雅地降级。 关键设计决策: - 每个资源的阈值:Workers请求(超出部分每百万次0.30美元)在80%时仅发出警告。KV写入(超出部分每百万次5美元)在90%时可以触发断路器。并非所有资源都同样危险,因此某些资源被配置为仅警告(触发=空)。 - 滞后效应:在90%时触发,在85%时恢复。5%的间隙可以防止振荡——没有它,系统会在每个检查周期之间在触发和恢复之间波动。 - 监控失败的安全保障:如果Cloudflare的使用API出现故障,保持最后已知状态,而不是假设“一切正常”。监控中断不应掩盖使用的激增。 - 警报去重:按资源和月份去重。没有这个,你将在一个资源达到80%后收到大约8600封相同的邮件。 实现:每5分钟查询Cloudflare的GraphQL API(请求、CPU、KV、队列)和可观察性遥测API(日志/追踪),并行评估8个资源维度,将状态缓存到KV。在检查之间只需进行一次KV读取——基本上是免费的。 当触发时,所有计划任务都会被跳过。定时触发器仍然会触发(你无法停止),但它首先检查断路器,如果触发则退出。 这个系统已经在生产环境中运行了两周。月初捕捉到KV读取的激增,达到了82%——收到了一封警告邮件,进行了调查,修复了根本原因,之后从未触及触发阈值。 这个模式应该适用于任何计量的无服务器平台(Lambda、Vercel、Supabase)或任何有预算上限的API(OpenAI、Twilio)。核心思想是:将自己的资源预算视为健康信号,就像你对待下游服务的错误率一样。 如果有兴趣,我很乐意分享代码细节。 完整的实现代码和测试的详细说明请见:https://yingjiezhao.com/en/articles/Usage-Circuit-Breaker-for-Cloudflare-Workers