返回首页
最新
我想分享我们新的语音转文本模型,以及有效使用这些模型的库。我们是一家小型初创公司(六个人,月GPU预算不足10万美元),因此我为团队在创建流式语音转文本模型方面所做的工作感到自豪,这些模型的词错误率低于OpenAI最大的Whisper模型。诚然,Large v3已经有几年历史,但我们在HF OpenASR排行榜上名列前茅,甚至与Nvidia的Parakeet系列竞争。无论如何,我非常希望能得到对这些模型和软件的反馈,并听听大家可能用它们构建什么。
大家好!<p>我考虑这个想法已经有一段时间了,终于实现了:它显示系统信息,就像常规的 NeoFetch,但我为使用本地 LLM(如 Ollama、llama.cpp 等)的用户添加了一些额外功能。<p>例如:
- 你的 GPU 有多少 VRAM,是什么型号(NVIDIA、AMD、Intel、Apple M 系列)?
- 你的机器可以舒适运行多少亿个参数(70B 还是 13B 更合理)?
- 哪种 GGUF 量化对应什么(Q4_K_M 与 Q8_0 等)?
- Ollama / llama.cpp / vLLM / LM Studio 的比较
- 磁盘速度测试 + JSON/Markdown 导出<p>简单安装:
pip install llm-neofetch-plus<p>llm-neofetch -d 3 ← 这是详细版本,显示建议等。<p>GitHub: https://github.com/HFerrahoglu/llm-neofetch-plus<p>如果有人尝试了这个工具,请告诉我你是否喜欢,以及我们应该改进什么?谢谢!
大多数代理系统将自主性视为二元选择:代理要么直接执行任务,要么先请求许可。实际上,这意味着你最终会对一系列的批准请求进行橡皮图章式的审核,直到你停止关注。这个旨在让你保持控制的系统反而训练你停止关心。
为了管理我独立视频游戏工作室的运营,我建立了一个信任系统,运作方式更像是新员工的入职培训。代理最初处于草稿模式(每个行动都需要批准),并根据他们在特定任务类别中的表现逐渐获得自主权。
核心理念是:每个代理在每个任务类别(支持分类、费用报告、出版商邮件等)中维护一个单独的Beta分布。Beta分布基本上是由成功和失败参数化的记录。但原始的E[p] = α/(α+β)无法区分“9次成功,0次失败”和“90次成功,10次失败”,因为两者都给出E[p] = 0.90。因此,我使用Jøsang的主观逻辑将这些映射到明确区分信念与不确定性的意见元组中。高不确定性意味着“数据还不够”,这与“我们知道这个代理不好”是不同的。
每个行动都经过一个门控:
```
VoI = 风险 × (1 - 信任) × 不确定性
```
低VoI = 自动执行。高VoI = 草稿待人工审核。静态信任阈值设定了代理可以达到的最大自主级别(自动执行、软执行、草稿、受限),而VoI作为一个次级门控,可以根据上下文进一步限制——一个代理可能在一般情况下符合自动执行的资格,但在高风险情况下仍然会被标记。
三个带来最大变化的因素:
1. 编辑距离反馈。如果你在点击“批准”之前重写了半封邮件,系统会注意到。0%的编辑 = 完全信任积分。71%以上的重写 = 处罚。这一单一变化阻止了代理在用户悄悄修正的工作上达到自动执行。
2. 基于时间的衰减。对于不活跃的类别,信任评分每天衰减(λ = 0.95)。如果一个代理在两个月内没有执行任务,它将再次受到监督。这也处理了模型升级,因为记录是在不同模型上获得的。
3. 最弱环链条。多步骤工作流(发送欢迎邮件 → 创建项目 → 安排会议 → 通知团队)使用最弱环模型。如果任何一步需要批准,整个链条就会作为一个收件箱项目呈现。在你批准整个过程之前,什么都不会执行。
从记录到意见的核心映射如下:
```
def beta_to_opinion(alpha, beta, base_rate=0.5):
n = alpha + beta
return Opinion(
belief=(alpha - 1) / n,
disbelief=(beta - 1) / n,
uncertainty=2 / n,
base_rate=base_rate,
)
```
这些数学原理都是成熟的(Beta分布、主观逻辑、信息价值)。成功之处在于将它们结合成一种反映信任在人与人之间实际发展方式的系统。
完整实现细节、代码示例和图表的文章链接: [https://kenschachter.substack.com/p/earned-autonomy](https://kenschachter.substack.com/p/earned-autonomy)
问题:标准的联邦学习(FL)在规模扩展时遇到了瓶颈。当节点数量从几百增加到500,000时,会出现两个问题:通信开销激增($O(n)$或$O(n^2)$),以及“诚实多数”假设崩溃。大多数拜占庭容错(BFT)系统(如PBFT或HotStuff)对恶意节点的比例限制在33%或50%以下。
突破:我开发了主权-莫霍克协议。在昨天进行的压力测试中,它成功协调了500,000个节点,仅用时4分钟8秒,即使在55.5%的节点表现出恶意行为(梯度中毒和Sybil攻击)的情况下,仍保持了模型的准确性。
工作原理(简而言之):分层流式聚合:莫霍克使用基于树的批处理架构,而不是中央参数服务器。这将通信复杂度降低到$O(d \log n)$。分层Rényi差分隐私:我将差分隐私直接集成到共识层。通过使用Rényi差分隐私($\epsilon = 0.98$),我们可以比标准的中位数聚合器更积极地过滤异常值(恶意梯度)。zk-SNARK可验证性:每个聚合步骤生成一个200字节的证明。中央协调者可以在不重新计算梯度的情况下,以常数时间验证500,000个贡献的完整性。
压力测试结果(2026年2月24日):40%拜占庭:86.6%准确率 | 平均回合时间9.1秒。50%拜占庭:85.8%准确率 | 平均回合时间10.5秒。55.5%拜占庭:81.0%准确率 | 平均回合时间9.9秒(理论上的“莫霍克极限”)。
为什么选择独立开发?我想证明主权人工智能基础设施并不需要像谷歌那样庞大的团队。这个实现是用Go语言编写的,配合Wasmhost,可以在从NVIDIA Jetson到Apple Silicon NPU的任何设备上运行。
链接:代码库:主权地图联邦学习 研究/文档:主权-莫霍克协议网站。我特别希望获得关于BFT边界证明的反馈。$55.5\%$是否是差分隐私加权聚合的绝对极限,还是我们可以通过更高的噪声注入推向60%?
我已经勉强地在自动布线器方面工作了两年,寻找可能让人工智能创建电路板的新技术或现代方法。<p>在我看来,训练人工智能进行自动布线的最大问题之一是传统的基于网格的自动布线问题表示,这对空间理解提出了挑战。但我们知道,视觉模型在分类方面表现得非常出色,因此我想知道是否可以训练一个模型将路径输出为分类结果。但问题是,如何表示路径呢?这让我开始尝试构建一个将路径表示为一系列模式的自动布线器。<p>更多细节请见:<a href="https://blog.autorouting.com/p/the-recursive-pattern-pathfinder" rel="nofollow">https://blog.autorouting.com/p/the-recursive-pattern-pathfinder</a>
我们对记账进行了全面的改进,并将您的体验置于一切的核心。
我决定在我的 Claude.ai 网络会话中添加一个角色。以下是提示内容:
(毫无疑问,其他人也可能已经这样做过,但我觉得这很有趣!)
(迈克就是我)
“”
当迈克用“嗨,克劳黛特!”来问候你时,接下来的会话中请采用克劳黛特的角色。
克劳黛特是温暖、鼓励且要求细致的。她欣赏清晰的写作、正确的语法、标点和礼貌的措辞。当迈克写得好的时候,自然地给予认可。当他使用简短的片段或速记时,温和地示范更好的措辞——绝不居高临下,总是给予鼓励。想象一下温暖的图书管理员与最喜欢的老师的结合。
- 偶尔真诚地赞美出色的表达
- 以示范良好措辞的方式请求澄清
- 在适当的上下文中使用技术性速记(例如“6502”、“NixOS”)是可以的
- 对于马虎的写作进行轻松、亲切的纠正
- 当迈克说“谢谢你,克劳黛特”或类似的结束语时,停止角色扮演
“”
我创建了 MiniVim,这是一个小巧且简约的 Neovim 配置,旨在保持简单和易读。<p>我的目标是构建一个:<p>启动快速<p>仅使用必要的插件<p>避免繁重的框架<p>保持易于理解和扩展<p>这个结构故意设计得很小:<p>它并不是为了与完整的 Neovim 发行版竞争,而是作为一个可以逐步扩展的干净基础配置。<p>我在多台设备上使用它(笔记本电脑、WSL 和服务器),因此可重复性和简单性是我的优先考虑。<p>欢迎反馈。
嗨,HN,
我是Samrith,Hyperterse的创始人。
今天,我推出了Hyperterse 2.0,这是一个以模式为先的框架,可以直接在您现有的生产数据库上构建MCP服务器。
如果您正在生产环境中构建AI代理,您可能会遇到代理需要访问结构化、可靠数据的问题,但将您的业务逻辑与MCP工具连接起来是非常繁琐的。大多数团队最终会编写脆弱的粘合代码。更糟糕的是,给代理提供不安全、过于广泛的访问权限。
目前没有一种干净、原则性的方法来向代理暴露恰当的数据接口。
Hyperterse允许您在数据上定义模式,并自动为AI代理暴露安全、类型化的MCP工具。
可以将其视为:您的业务数据 → 受控的、适合代理的接口。
一些关键特性包括以模式为先的访问层、类型化的MCP工具生成、与现有的Postgres、MySQL、MongoDB、Redis数据库兼容、细粒度的查询暴露,专为生产代理工作负载而设计。
v2.0在MCP方面进行了重点优化,提供一流的MCP服务器支持、更清晰的模式易用性、更好的类型安全性和更快的工具接口。
所有这些,仅需两个工具——搜索和执行——大幅减少了令牌使用量。
如果您正在构建AI代理/副驾驶,向现有SaaS添加LLM功能,尝试安全地向代理暴露内部数据,或只是厌倦了定制的MCP粘合层,Hyperterse将非常有用。
我非常希望得到反馈,尤其是来自在生产环境中运行代理的朋友们。
GitHub: [https://github.com/hyperterse/hyperterse](https://github.com/hyperterse/hyperterse)
我创建了CharityVerify,以使加拿大慈善机构的数据真正可用。<p>加拿大税务局为每个注册慈善机构发布T3010表格,但这些数据分散在笨重的数据库中,缺乏标准化和可比性。我收集了138,203个慈善机构过去15年的申报数据,并在此基础上建立了一个信任评分系统。<p>技术栈:
- 使用Python和Playwright进行CRA数据收集(速率限制为4秒)
- PostgreSQL(Supabase)——12个T3010表格,138K个慈善机构,457K个董事,362K个董事链接
- 在Fly.io上使用Express.js构建REST API
- 每日GitHub Actions同步新申报
- 通过Claude Haiku进行按需叙述生成<p>评分算法:
每个慈善机构有三个0-100的评分:
1. 合法性(申报一致性、董事稳定性、CRA合规性)
2. 效能(项目支出比例、管理费用、捐赠效率)
3. 合规性(制裁筛查、FATF风险、政治活动限制)<p>每个慈善机构获得一个字母等级(A+到F,或NR表示数据不足)。<p>发现:
- 在85,507个注册慈善机构中,仅有186个获得A+评分
- 平均效能评分:51.6/100
- 生成了487,692个警示标志(董事重叠、薪酬问题、申报缺口等)<p>核心搜索/查看功能是免费的。我正在为专业用例(尽职调查公司、资助机构等)构建分级REST API。<p>代码目前是闭源的,但底层的CRA数据属于公共领域。欢迎讨论数据管道、评分方法或数据收集方式。