嗨,HN!<p>我正在构建一个叫做持久心智模型(PMM)的东西。<p>最初这是我在家用电脑(i7-10700K / RTX 3080 / 32 GB RAM)上进行的一个副项目,因为我对每个本地AI聊天都从零开始感到沮丧。我想要一个能够记住自己发展的系统,并且可以像研究活生生的心智一样进行研究。<p>所以我决定尝试构建一个。我的意思是,为什么不呢? :)<p>基本上,如果我用一句话来描述持久心智模型,我会说它是一个用于语言模型的事件源认知架构。<p>它是模型无关的,这意味着你可以通过Ollama使用本地模型,或者连接到OpenAI的API,而系统无论后端如何都保持相同的“身份”。<p>它所说的每一句话或做出的每一个决定、反思、承诺、个性变化,都以哈希链事件的形式存储在本地SQLite账本中。这个账本成为模型的记忆和身份。它是可重现的、可审计的,并且是可移植的。<p>使其与通常的LLM设置不同的一些特点:<p>模型无关:可以与OpenAI、Ollama或其他后端一起使用,并且可以在不丢失身份的情况下更换模型。<p>新兴记忆:情节记忆、语义记忆和工作记忆自然地从结构中出现,而不是额外的代码。<p>架构诚实:验证循环实时捕捉幻觉并记录纠正。<p>确定性增长:重放相同的账本会再现相同的“心智”。将数据库移动到另一台机器上,它会从中断的地方继续。<p>完全本地:在你自己的系统上运行,无需账户或云服务,但如果你愿意,可以连接它们。<p>现在它已经与OpenAI和Ollama Cloud连接,并计划添加xAI、Google和Anthropic。<p>这个版本是我几个月前在这里发布的内容的完全重写:<a href="https://news.ycombinator.com/item?id=45055443">https://news.ycombinator.com/item?id=45055443</a><p>它以双重许可发布(免费非商业、付费商业),因此任何人都可以在本地进行实验,并根据自己的需要维护自己的AI个性。<p>提前提醒一下:我不是专业工程师。我只是一个好奇的自学构建者,想看看AI是否能记住自己,结果不知怎么地构建了这个实际上有效的东西。<p>我非常希望能收到对可解释AI、认知架构或模型无关系统感兴趣的人的反馈。<p>代码库:<a href="https://github.com/scottonanski/persistent-mind-model-v1.0" rel="nofollow">https://github.com/scottonanski/persistent-mind-model-v1.0</a><p>我真的希望能有几个人来看看。看到它随着时间的发展而变化真是太神奇了。
返回首页
最新
我编写了一个小的 Bash 脚本,以便在终端中更方便地导航目录。
它是一个轻量级的替代方案,功能包括:
- 保存 *临时或持久的书签* 以便于访问目录。
- 为常用路径分配 *别名*。
- 通过一个命令快速跳转到任何已保存的目录。
欢迎反馈和建议!
谢谢!
简而言之:我开发了一款原生的 macOS 语音转录应用,能够在本地即时转录。文本会随着你的讲话而出现(测得的首个字符延迟约为 100 毫秒)。无需账户,无需服务器,无需追踪。
<p>链接:
• 网站: <a href="https://dictly.app" rel="nofollow">https://dictly.app</a>
• Mac 应用商店: <a href="https://apps.apple.com/de/app/dictly-no-keys-just-clarity/id6752733596">https://apps.apple.com/de/app/dictly-no-keys-just-clarity/id...</a>
• 免费下载;可选的专业版(管道、无限历史记录等)
<p>功能介绍
<p>实时转录——在你讲话时流式显示文本,而不是在你停止后。
快速捕捉叠加(macOS)——全局热键,可将文本粘贴到任何应用程序/字段中。
自定义管道——本地后处理步骤,用于清理、标点或风格规范。
词典配置文件——教授领域术语(名称、品牌、代码标记等)。
本地分析——查看节省的时间与打字的对比(在设备上计算,从不发送到任何地方)。
<p>开发原因
<p>我希望语音转录能够像打字一样即时且可靠。大多数工具会将音频流传输到服务器;我想要的是一种从不离开机器的解决方案。
<p>构建方式(高层次)
<p>使用 Swift 和 Apple 的语音/机器学习框架。
流式音频捕捉 → 设备内识别 → 本地管道 → 粘贴到活动应用中。
在关闭 Wi-Fi 的情况下也能工作;转录过程中没有网络请求。
<p>与内置功能的不同之处
<p>始终在设备上运行 + 流式处理,具有可在任何应用中使用的全局叠加。
通过管道实现可扩展、确定性的清理(不是黑箱云)。
每个项目的词典可用于处理行话和专有名词。
<p>初步数据
<p>延迟:在现代 Mac 上的典型条件下,语音开始后的首个可见字符延迟约为 100 毫秒。
隐私:零遥测;无需账户;无后台同步。所有内容均保持本地。
<p>权衡(提前说明)
<p>准确性取决于麦克风和环境(这并不意外)。
对于奇怪的专有名词/行话,你可能需要一个词典配置文件。
强烈的背景噪音会降低结果质量(管道的处理能力有限)。
<p>我希望从 HN 获得的反馈
<p>不同硬件上的性能印象。
失败案例(口音、缩略词、编码、会议)。
你实际会使用的管道想法(例如,Markdown 格式、代码块保护、风格规则)。
集成愿望:CLI?快捷方式操作?特定编辑器的助手?
<p>我是一个独立开发者。
乐意回答具体问题并快速修复。
如果你发现模糊的说法,请指出来。