返回首页
最新
大家好,
这是一个临时账号,以防有人认为这与政治动机有关。
我花了一些时间整理埃普斯坦的档案,以使透明度更加清晰。我还需要进一步完善组织和个人的数据,但希望这在研究过程中能有所帮助。
我一直在相对封闭的Windows环境中工作,虽然可以运行Python,但无法安装或启动新的`.exe`文件。此外,内置的Windows语音输入功能被屏蔽(反正唯一好用的也不是本地的)。同时,我非常希望能够实现准确、快速的语音输入,而不需要将音频发送到云服务,也不需要GPU。我尝试过的大多数语音转文本设置要么需要特殊的启动器,要么需要GPU访问,或者在日常使用中操作不便。
为了满足这个需求,我开发了Chirp,这是一款完全本地运行的Windows语音输入应用,使用NVIDIA的ParakeetV3模型,并通过`uv`进行端到端管理。如果你的机器上可以运行Python,就应该能够运行Chirp——无需额外的可执行文件。
在底层,Chirp使用的是Parakeet TDT 0.6B v3 ONNX包。ParakeetV3的准确性与Whisper-large-v3相当(多语言的字错误率约为4.9,相比之下Whisper-large-v3约为5.0),但速度更快,并且在CPU上表现良好。
使用流程如下:
- 一次性设置,下载并准备ONNX模型:
- `uv run python -m chirp.setup`
- 一个长时间运行的命令行进程:
- `uv run python -m chirp.main`
- 一个全局热键,用于开始/停止录音,并将文本注入到活动窗口中。
一些可能在技术上有趣的细节:
- <i>仅限本地的语音转文本:</i>所有操作都在你的机器上使用ONNX Runtime;默认使用CPU提供者,如果环境允许,也可以选择GPU提供者。
- <i>配置驱动的行为:</i>一个`config.toml`文件控制全局热键、模型选择、量化(`int8`选项)、语言、ONNX提供者和线程管理。还有一个简单的`[word_overrides]`映射,可以修正模型经常误听的词汇。
- <i>后处理管道:</i>识别后,有一个可选的“风格指南”步骤,你可以指定提示,如“句子首字母大写”或“前置:>>”用于最终文本。
- <i>Windows上无需剪贴板操作:</i>该应用直接在聚焦窗口中输入;对于更合适的平台,提供了基于剪贴板的粘贴和清理行为选项。
- <i>音频反馈:</i>开始/停止声音(可配置)让你知道麦克风何时实际在录音。
到目前为止,我主要在自己的Windows机器上进行了英语语音输入和仅CPU的设置测试。可能还有很多粗糙的地方(不同的键盘布局、语言设置、企业IT政策等),我希望能得到以下人群的反馈:
- 在受限的企业环境中工作并需要本地语音输入的人。
- 有Parakeet/Whisper或ONNX Runtime经验,并能看到明显的性能或稳定性改进方法的人。
- 想要特定功能(例如,更好的多语言支持、更先进的后处理,或与他们的编辑器/IDE集成)的人。
代码库在这里:
`<a href="https://github.com/Whamp/chirp" rel="nofollow">https://github.com/Whamp/chirp</a>`
如果你尝试使用,我非常感兴趣:
- 你硬件上的CPU使用率和延迟,
- 它在你的键盘布局和应用程序中的表现,
- 你遇到的任何奇怪的故障情况或使用上的烦恼。
欢迎在评论中提问或深入讨论技术细节。