最新

2 分•作者: ashfn•3 个月前•原帖

8 分•作者: mbuda•3 个月前•原帖

是否存在一个衡量人们能够有效处理多少数据的尺度，类似于“卡尔达肖夫数据尺度”？这样一个尺度可以叫什么名字？在Memgraph的社区电话会议中（https://youtu.be/ygr8yvIouZk?t=1307），提到AgenticRuntimes和GraphRAG可以使你在“卡尔达肖夫数据尺度”上向上移动，因为你突然能够从任何数据集中获得更多的洞察，而且每个人都可以使用它（大型企业并不控制它）。我在https://adamdrake.com/from-enterprise-decentralization-to-tokenization-and-beyond.html#productize上发现了一些类似的内容，但其定义/示例看起来非常狭窄。

我厌倦了这种人工智能的玩意儿 [视频]

1 分•作者: thm•3 个月前•原帖

展示HN：法律RAG基准

1 分•作者: beowa•3 个月前•原帖

大家好，这是法律RAG基准（Legal RAG Bench），这是第一个用于同时评估法律RAG系统中的幻觉、检索失败和推理错误的基准。我们基准的关键要点包括： 1. 嵌入模型，而非生成模型，是RAG准确性的主要驱动因素。从像OpenAI的文本嵌入3大型这样的通用嵌入模型切换到法律领域的嵌入模型，例如Kanon 2嵌入模型，可以将准确性提高约19个百分点。 2. 幻觉通常是由检索失败引发的。修复你的检索系统，在大多数情况下，你将最终修复幻觉问题。 3. 一旦你拥有一个稳固的法律检索引擎，所使用的生成模型就不那么重要；GPT-5.2和Gemini 3.1 Pro的表现相对相似，Gemini 3.1 Pro在准确性上稍微好一些，但代价是更多的幻觉。 4. 谷歌最新的LLM，Gemini 3.1 Pro，在法律RAG方面的表现实际上比其前身稍差，准确率为79.3%，而不是80.3%。这些发现证实了我们之前的怀疑，即信息检索设定了法律RAG系统准确性的上限。无论你多聪明，如果没有访问到最新的加州车辆法典，你不可能神奇地知道加州超速的处罚是什么。尽管如此，据我们所知，我们是第一个实际通过实证展示这一点的团队。不幸的是，正如我们在报告中强调的，高质量的开放法律基准，如法律RAG基准和我们早期的庞大法律嵌入基准（MLEB），实在是少之又少。例如，我们指出，流行的Vals AI CaseLaw（v2）基准所产生的LLM排名与我们的排名不可思议且截然不同，同时也未能正确评估端到端的RAG性能。由于CaseLaw（v2）是一个私有和专有的基准，我们无法确认我们发现的差异的来源，尽管我们怀疑它们源于严重缺陷的评估和标记方法。为了透明起见，我们不仅详细说明了我们如何构建法律RAG基准，还在Hugging Face上公开发布了我们所有的数据，链接如下：<a href="https://huggingface.co/datasets/isaacus/legal-rag-bench/" rel="nofollow">https://huggingface.co/datasets/isaacus/legal-rag-bench/</a>。我们也将很快将我们的报告以论文形式发布。

Mrhbaan叙利亚，Fedora Linux现在在叙利亚可用。

1 分•作者: _sofar•3 个月前•原帖

AWS安全最佳实践：2026年验证的策略

1 分•作者: Priyasinhakt•3 个月前•原帖

个人博客应该有评论功能

1 分•作者: medv•3 个月前•原帖

护城河已发生变化：软件的开发曾经成本高昂。

1 分•作者: kaizenb•3 个月前•原帖

展示HN：OpenClaw助手 – 针对OpenClaw的安卓语音助手应用程序

1 分•作者: YugaHashimoto•3 个月前•原帖

开源的Android语音助手应用程序，专为OpenClaw设计。主要功能： - 离线唤醒词检测（Vosk） - VoiceInteractionService集成（长按主页键） - 实时聊天 + 流式响应 - 加密设置 + 设备身份 - 双语用户界面（英语/日语）欢迎对架构、入门体验和生产环境的安全性提出反馈。

展示 HN：Doksnet – 通过哈希验证保持文档与代码同步

1 分•作者: pulko•3 个月前•原帖

文档会出现偏差。README.md 中的示例可能与实现不再匹配，而持续集成（CI）通常不会注意到这一点。我开发了 doksnet，这是一个小型的 Rust 命令行工具，它可以将文档部分与代码片段链接起来，并通过 Blake3 哈希值验证两者是否保持同步。你可以定义如下的映射：• README.md:15-25• src/lib.rs:40-65doksnet 将这些范围及其哈希值存储在一个紧凑的 .doks 文件中。doksnet test 会重新提取内容，如果有任何变化（包括空格），则会失败（退出代码 1）。基本流程：• doksnet new – 初始化• doksnet add – 创建文档 ↔ 代码映射（交互式）• doksnet test – CI 安全验证• doksnet test-interactive – 审查/修复不匹配它是本地仓库的，不依赖外部服务，也没有解析/抽象语法树魔法——仅仅是确定性的文本提取和哈希。如果你想在 CI 中强制同步，还有一个 GitHub Action。仓库： <a href="https://github.com/Pulko/doksnet" rel="nofollow">https://github.com/Pulko/doksnet</a> 安装：cargo install doksnet 网站： <a href="https://doksnet.pulko-app.com" rel="nofollow">https://doksnet.pulko-app.com</a>希望能收到对这种方法的反馈——特别是这个工具是否能比“根据新变化重写所有 README，确保没有错误”更有用，尤其是在 AI 使用受到限制的环境中。

《Erxi：我如何学会热爱快速测试套件》

1 分•作者: t_null•3 个月前•原帖

硅谷工程师因涉嫌向伊朗发送机密而被起诉。

1 分•作者: giuliomagnifico•3 个月前•原帖

通往普及人工智能的道路（每秒17,000个标记）

109 分•作者: sidnarsipur•3 个月前•原帖

展示HN：我重温了我的童年

1 分•作者: sklivvz1971•3 个月前•原帖

展示HN：17MB的发音评分器在音素层面超越人类专家

1 分•作者: fabiosuizu•3 个月前•原帖

我开发了一个英语发音评估引擎，体积仅为17MB，并且在CPU上运行时间不到300毫秒。架构：CTC强制对齐 + GOP评分 + 集成头（MLP + XGBoost）。不使用wav2vec2或大型自监督模型——整个流程采用量化的NeMo Citrinet-256作为声学骨干。在speechocean762（标准学术基准，2500个发音）上进行基准测试： - 音素准确率（PCC）：0.580 — 超过人类标注者间的一致性（0.555） - 句子准确率：0.710 — 超过人类一致性（0.675） - 模型体积比基于wav2vec2的最先进技术小70倍权衡：在原始准确率上，我们比最先进技术低约10-15%。但对于语言学习应用中的实时反馈而言，这种延迟/体积的权衡是值得的。可作为REST API、MCP服务器（用于AI代理）以及在Azure市场上提供。演示：<a href="https://huggingface.co/spaces/fabiosuizu/pronunciation-assessment" rel="nofollow">https://huggingface.co/spaces/fabiosuizu/pronunciation-assessment</a>希望获得关于评分方法和人们认为有价值的用例的反馈。

《大列车追逐》

1 分•作者: keiferski•3 个月前•原帖

生成媒体的现状

1 分•作者: mdrzn•3 个月前•原帖

勇敢的伊朗人在伊朗中部聚集，纪念在起义中遇难的人们。

1 分•作者: ukblewis•3 个月前•原帖

特朗普将下令解密与UFO/UAP相关的文件

1 分•作者: lucasRW•3 个月前•原帖

展示HN：SaveTheTrade – 一个简单的交易日志和绩效跟踪工具

1 分•作者: daniellax•3 个月前•原帖

上一页 1...1198 1199 1200 1201 1202...6138 下一页