返回首页

一周热榜

1作者: ersinesen4 天前原帖
音乐的基本构成要素——音符、音阶、和声——并不是原始元素。它们是涌现出的结构。音高只是节奏的加速表现。<p>由 NoteookLM 生成的播客:<a href="https:&#x2F;&#x2F;www.youtube.com&#x2F;watch?v=q9bFUocrm70" rel="nofollow">https:&#x2F;&#x2F;www.youtube.com&#x2F;watch?v=q9bFUocrm70</a>
1作者: nip4 天前原帖
嘿,HN! 我开发了 SimplePDF Copilot:一个可以与 PDF 编辑器互动的 AI 助手。它可以填写字段、回答问题、聚焦特定字段、添加字段、删除页面等等。 这个工具是基于我七年前开始的 SimplePDF 构建的,开创了尊重隐私的客户端 PDF 编辑,目前每月有超过 20 万人使用。 关于隐私模型:PDF 文件本身从未离开浏览器。解析、渲染和字段检测都在客户端进行。 模型所需的文本(以及你的消息)会发送到你指定的任何大型语言模型(LLM)。默认情况下,这是我们的演示代理(DeepSeek V4 Flash,受限于速率),但你可以自带密钥(BYOK),指向任何云服务提供商,或者完全本地化(我一直在使用 LM Studio 进行测试)。 与现有的“与 PDF 聊天”工具仅能提取文本/OCR 层不同,Copilot 可以对 PDF 进行操作:填写字段、添加字段(使用 Joe Barrow 的 CommonForms 在客户端检测,jbarrow 在 HN 上发布了一些我添加的后处理启发式方法)、聚焦字段、删除页面等等。 我之所以构建这个工具,是因为 SimplePDF 主要被医疗行业客户使用,在那里文档隐私至关重要,我希望提供一种不需要将个人身份信息(PII)发送给第三方的 AI 体验。 技术栈相当标准: - Tanstack Start - 来自 Vercel 的 AI SDK - Tailwind(我个人更喜欢 CSS 模块,我是老派,但考虑到我开源的目标,我认为 Tailwind 更合适) 更有趣的部分是客户端工具调用:事件通过 iframe 的 postMessage 进行双向传递。 如果你不熟悉“工具调用”和“客户端工具调用”,这里有个简要介绍: 工具调用是 LLM 用于执行操作的方式。当 Claude 运行 grep 或 ls,或访问 MCP 服务器时,这些都是工具调用。 客户端工具调用意味着调用工具的意图来自 LLM,但执行发生在浏览器中。 这对速度很重要,你无法比客户端之间的操作更快,同时也让你能够限制暴露给 LLM 的数据。在演示中,我确实将文档内容提供给 LLM,但这个连接可以通过简单地移除暴露内容数据的工具来断开。 演示是完全开源的,已在 GitHub 上提供,演示链接与此帖的链接相同。 不公开的部分是 SimplePDF 本身(作为 iframe 加载)。 我可以继续谈论这个话题,如果你有任何问题,请告诉我,任何问题都可以! [1] [https://github.com/jbarrow/commonforms](https://github.com/jbarrow/commonforms) [2] [https://github.com/SimplePDF/simplepdf-embed/tree/main/copilot](https://github.com/SimplePDF/simplepdf-embed/tree/main/copilot) [3] [https://copilot.simplepdf.com/?share=a7d00ad073c75a75d493228e6ff7b11eb3f2d945b6175913e87898ec96ca8076&form=w9&lang=en](https://copilot.simplepdf.com/?share=a7d00ad073c75a75d493228...)
1作者: Jean-Philipe4 天前原帖
你好*, 我的女儿14岁,想开始学习游戏开发。你推荐哪个框架/引擎?我觉得她已经足够大,可以尝试一些“真实”的工具,而不是专门针对儿童的游戏引擎。不过,它应该是有趣且易于上手的。我在考虑gbstudio、Godot,或者一些基于JavaScript/HTML的引擎。 她喜欢《星露谷物语》和《我的世界》,所以我想我们可以选择一些像素风格的东西。我可以在旁边支持,但我不希望她因为等待我解决问题而受到阻碍。