最新

构建WCAG无法测试的内容

1 分•作者: mooreds•大约 1 个月前•原帖

Recho Notebook：一个用于算法和ASCII艺术的响应式编辑器

1 分•作者: ayhanfuat•大约 1 个月前•原帖

塔塔斯、弗雷迪·墨丘利和其他巴瓦斯

1 分•作者: joebig•大约 1 个月前•原帖

Paxos算法用简单的英语表述时，其实是很简单的（2021）。

1 分•作者: eatonphil•大约 1 个月前•原帖

当我尝试评估一个在生产环境中的AI代理时，发生了什么问题。

1 分•作者: colinfly•大约 1 个月前•原帖

我尝试使用基准测试的方法来评估一个人工智能代理。结果出现了我意想不到的失败。大多数失败并不是由于模型质量问题，而是系统层面的问题。以下是一些来自小型测试套件的例子：- 工具调用中的无效 URL → 分数降至 22- 代理在云环境中调用本地主机 → 卡在 46- 被标记为幻觉的真实 CVE → 评估问题，而非模型问题- Reddit 阻止请求 → 外部依赖失败- 生产环境中缺少 API 密钥 → 静默失败每次运行都暴露了一个真实的错误，但并不是我最初想要测量的那种。令我惊讶的是，评估代理不仅仅是对输出进行评分。这是关于验证整个系统：工具、环境、数据访问，以及代理与这些要素的交互方式。换句话说，大多数失败模式更像是软件错误，而不是大型语言模型的错误。这让我思考，代理的评估循环应该更像软件测试，而不是基准测试： - 可重复的测试套件 - 明确的通过/失败标准 - 回归检测 - 根本原因分析否则，很容易将失败归因于模型，而实际上问题出在其他地方。最后，我构建了一个小工具来结构化这个过程，但对我来说更重要的收获是，现实世界中的代理评估与标准基准相比，实际上是多么复杂。我很好奇其他人是如何处理这个问题的，尤其是在生产环境中。

教人工智能阅读我的网站（通过MCP）

1 分•作者: mooreds•大约 1 个月前•原帖

计算机编年史

1 分•作者: max_•大约 1 个月前•原帖

厄尔尼诺现象预计将在2026年回归，带来全球气候的剧烈变化。

1 分•作者: geox•大约 1 个月前•原帖

如果你认为代码编写速度是你的问题，那你还有更大的问题。

54 分•作者: mooreds•大约 1 个月前•原帖

展示HN：Flowershow 在几秒钟内发布Markdown。托管、免费、零配置。

5 分•作者: rufuspollock•大约 1 个月前•原帖

我是鲁弗斯，Flowershow的创始人之一。我们热爱Markdown，并在网站、文档和知识库等各个地方使用它。此外，现在AI也在各处应用Markdown。我们厌倦了每次想分享文件或将网站上线时所需的框架、配置和部署的繁琐过程。因此，我们构建了我们想要的工具：文件输入，网站输出。我们的愿景是“内容的Vercel”——让部署（Markdown）内容变得像Vercel为JavaScript所做的那样快速、无缝和简单。通过命令行，你可以连接到GitHub仓库，使用Obsidian插件，或者拖放文件。 ``` npm i -g @flowershow/publish publish ./my-notes # → https://your-site.flowershow.app 几秒钟内上线 ``` Flowershow是**完全托管**的——无需服务器、构建管道或持续集成/持续部署。只需指向一个Markdown文件夹，即可获得一个URL。支持完整的Obsidian语法：维基链接、提示框、图表视图、前置信息。 GFM、Mermaid、LaTeX：图表和数学公式原生渲染。通过Tailwind和CSS变量实现主题：开箱即用的Tailwind。可在不需要构建步骤的情况下进行自定义。支持HTML：使用HTML、图片等。目前约有7000个Obsidian插件安装，1400名用户，1100个网站。个人使用永久免费。高级版（$5/月）提供自定义域名、搜索和密码保护。而且它是开源的：[https://github.com/flowershow/flowershow](https://github.com/flowershow/flowershow) 快来试试吧，告诉我们你的想法以及我们可以改进的地方。

展示HN：由MacBook中隐藏的加速度计驱动的机械键盘声音

3 分•作者: olvvier•大约 1 个月前•原帖

收购要约正在增加——但它们并不能替代退出机制。

1 分•作者: alephnerd•大约 1 个月前•原帖

展示HN：Gemfile RSS 订阅源生成器

1 分•作者: kinduff•大约 1 个月前•原帖

我创建了这个服务，用于将 Ruby 的 Gemfile.lock 文件转换为 RSS 源。只需上传你的锁定文件，就能获得一个在你的依赖项发布新版本时通知你的源。在过去的几个周末里，我很享受构建这个服务的过程，希望它对其他人也有用！

DialHard迎来了第一周年——浏览器到电话的通话，月 recurring revenue（MRR）为600万欧元，用户数量达到1200人，团队仅有一人。

1 分•作者: d0min0•大约 1 个月前•原帖

戴尔在2026财年的员工人数减少了10%。

1 分•作者: DGAP•大约 1 个月前•原帖

展示HN：SiteOne Crawler - 用于网页质量回归的单一二进制CI/CD门控工具