返回首页
最新
我构建了一个 Rust 二进制文件(约 700KB,包含两个依赖项),它可以与任何 Windows 应用程序连接,持续将其 UI 自动化可访问性树读取到 SQLite 数据库中,并允许外部进程通过 SQL INSERT 控制该应用程序。
核心见解:每个 GUI 应用程序通过可访问性层(自 1997 年以来为屏幕阅读器构建)已经以结构化文本的形式描述了自己。每个主要的 AI 实验室都在截取这些屏幕截图并对其运行视觉模型。DirectShell 直接读取文本。
它的功能:
- 将每个按钮、字段、菜单项读取到可查询的 SQLite 数据库中(每 500 毫秒刷新一次)
- 生成多种输出格式:完整数据库、交互元素列表、针对大型语言模型优化的快照(50-200 个标记,相比之下,屏幕截图为 1,200-5,000 个标记)
- 通过 5 种操作类型控制应用程序:按元素名称点击、通过 UIA ValuePattern 设置文本、逐字符输入、发送组合键、滚动
- 包含一个 MCP 服务器,以便 Claude/GPT 可以直接使用
第一天演示:在 90 秒内填充了 360 个 Google Sheets 单元格,跨应用读取并回复了 Claude.ai 的对话,瞬间写入了记事本。没有屏幕截图,没有视觉模型,没有坐标猜测。
局限性(诚实):在 8.5 小时内构建,单一应用范围,Chromium 应用需要 4 阶段激活黑客以暴露其树,应用的可访问性质量各不相同。AGPL-3.0。
演示: [https://youtu.be/nvZobyt0KBg](https://youtu.be/nvZobyt0KBg)
完整技术论文:在仓库的 Dokumentation/ 下,以及 [https://dev.to/tlrag/i-built-a-new-software-primitive-in-85-hours-it-replaces-the-eyes-of-every-ai-agent-on-earth-55ia](https://dev.to/tlrag/i-built-a-new-software-primitive-in-85-hours-it-replaces-the-eyes-of-every-ai-agent-on-earth-55ia)
嘿,HN,我是奥斯卡。在经营开发公司15年后,我厌倦了大型语言模型(LLMs)对项目时间线和依赖关系的错误推测。它们只是文字计算器,而不是调度引擎。
我创建了Motionode。可以把它看作是“技术规划的光标”。
它的工作原理:
1. 粘贴一份原始的、非结构化的需求文档。
2. 一个大型语言模型提取核心交付物。
3. 一个确定性的物理引擎接管——映射实际任务依赖关系,并根据你特定团队的能力(例如,2个前端,1个后端)计算关键路径。
V0愿景:
今天的AI编码代理失败是因为它们缺乏严格的架构蓝图。通过从第一天起将项目捕捉为一个确定性的图,我们正在构建一个统一层,使得大型语言模型最终能够生成一个V0代码库,而不会出现错误推测。
我希望你能把一份杂乱的需求文档扔给它,告诉我我的调度计算在哪些地方出错。
我正在寻找一种基于文本文件批量生成音频的方法。理想情况下,这应该是一个可以在本地运行的系统(M3 Mac,24GB RAM),并且至少支持10种语言的本地化。
我尝试过一些系统(eSpeak、Piper、QWEN),但都没有给出令人满意的结果。Huggingface似乎也没有特别受欢迎的文本转语音模型。我一直在使用OpenAI的gpt-4o-mini模型,但这似乎快要结束生命周期了。
您有什么推荐的LLM(或非LLM)系统吗?
嗨,HN!
我在7年前创建了SimplePDF,最初的愿景就是帮助消除官僚主义(我来自法国,我知道我在说什么)。
快进到本周,我终于发布了一个我心中盘旋已久的项目:一个主要美国表格的仓库,这些表格可以直接在浏览器中填写,而不必去网上(或本地)寻找PDF工具。
目前我专注于医疗保健、教育、HR、法律和IRS/税务领域。
在技术方面,SimplePDF始终如一:客户端处理(数据/文档保留在您的浏览器中)。
希望您觉得这个资源有用!
NiP
在我的职业生涯中,我尝试了许多查询 PostgreSQL 的工具,最终得出的结论是,对于我的工作来说,最简单的几乎总是最好的:原始 SQL 查询。<p>直到现在,我都是手动输入结果,并依赖测试来捕捉问题。虽然在例如 GoLang 中这样做还可以,但在 TypeScript 中就相当麻烦。首先,由于更强大的类型系统(猜测 updated_at 是日期要比猜测它是否可为空容易得多),其次,由于某些特性(INT4 被反序列化为 JS 数字,而 INT8 被反序列化为字符串)。<p>因此,我编写了 pg-typesafe,目标是让它尽可能少带来负担:你可以像调用 node-pg 一样调用查询,并且它们是完全类型化的。<p>这个工具非常新,但我已经在一个较大的项目中使用它,它发现了几个 bug 和潜在问题,并且让我能够去掉许多手动的类型定义。
我一直试图重置我Mac上的蓝牙状态,但无济于事,因为我的键盘突然停止连接。我已经删除了所有的偏好文件,进入恢复模式删除了受“系统完整性”保护的数据库,以及似乎所有被bluetoothd访问的文件,正如lsof所报告的那样。<p>有没有苹果的工程师能解释一下,为什么他们让重置损坏的蓝牙状态变得不可能?
受到西蒙·威利森最近关于黑暗软件工厂的文章启发,我开始尝试为我正在构建的金融科技产品应用数字双胞胎宇宙的概念。在短短两天内,这改变了我使用代理构建和维护具有API依赖的软件的方式。在传统开发中,代理无法安全地探索或与真实API集成。当软件开始自主推理和行动时,文档、模拟和沙盒就会崩溃。
WonderTwin提供了第三方API的本地行为双胞胎,能够镜像外部系统的合同、状态、Webhook、故障模式和特性。代理(或人类)可以安全地在本地或持续集成环境中测试、开发和迭代,而无需接触生产环境,也不需要互联网访问。只需运行 `wt install stripe@latest`,您就可以获得一个完全模拟Stripe的已编译Go二进制文件,符合其最新SDK版本。WonderTwin还包括一个MCP服务器,以便代理可以直接与每个双胞胎进行交互。
WonderTwin是开放核心的,针对生产团队提供商业版。最新的双胞胎版本始终免费,并且您还可以使用附带的代理技能构建自己的双胞胎。商业版提供历史版本,并且即将推出混沌测试和其他弹性功能。
如果您正在构建或维护API密集型系统,或正在尝试自主代理,我非常希望能听到您对这种方法的反馈,以及任何可以改进的建议。