21作者: searchepstein5 个月前原帖
大家好, 这是一个临时账号,以防有人认为这与政治动机有关。 我花了一些时间整理埃普斯坦的档案,以使透明度更加清晰。我还需要进一步完善组织和个人的数据,但希望这在研究过程中能有所帮助。
3作者: whamp5 个月前原帖
我一直在相对封闭的Windows环境中工作,虽然可以运行Python,但无法安装或启动新的`.exe`文件。此外,内置的Windows语音输入功能被屏蔽(反正唯一好用的也不是本地的)。同时,我非常希望能够实现准确、快速的语音输入,而不需要将音频发送到云服务,也不需要GPU。我尝试过的大多数语音转文本设置要么需要特殊的启动器,要么需要GPU访问,或者在日常使用中操作不便。 为了满足这个需求,我开发了Chirp,这是一款完全本地运行的Windows语音输入应用,使用NVIDIA的ParakeetV3模型,并通过`uv`进行端到端管理。如果你的机器上可以运行Python,就应该能够运行Chirp——无需额外的可执行文件。 在底层,Chirp使用的是Parakeet TDT 0.6B v3 ONNX包。ParakeetV3的准确性与Whisper-large-v3相当(多语言的字错误率约为4.9,相比之下Whisper-large-v3约为5.0),但速度更快,并且在CPU上表现良好。 使用流程如下: - 一次性设置,下载并准备ONNX模型: - `uv run python -m chirp.setup` - 一个长时间运行的命令行进程: - `uv run python -m chirp.main` - 一个全局热键,用于开始/停止录音,并将文本注入到活动窗口中。 一些可能在技术上有趣的细节: - <i>仅限本地的语音转文本:</i>所有操作都在你的机器上使用ONNX Runtime;默认使用CPU提供者,如果环境允许,也可以选择GPU提供者。 - <i>配置驱动的行为:</i>一个`config.toml`文件控制全局热键、模型选择、量化(`int8`选项)、语言、ONNX提供者和线程管理。还有一个简单的`[word_overrides]`映射,可以修正模型经常误听的词汇。 - <i>后处理管道:</i>识别后,有一个可选的“风格指南”步骤,你可以指定提示,如“句子首字母大写”或“前置:>>”用于最终文本。 - <i>Windows上无需剪贴板操作:</i>该应用直接在聚焦窗口中输入;对于更合适的平台,提供了基于剪贴板的粘贴和清理行为选项。 - <i>音频反馈:</i>开始/停止声音(可配置)让你知道麦克风何时实际在录音。 到目前为止,我主要在自己的Windows机器上进行了英语语音输入和仅CPU的设置测试。可能还有很多粗糙的地方(不同的键盘布局、语言设置、企业IT政策等),我希望能得到以下人群的反馈: - 在受限的企业环境中工作并需要本地语音输入的人。 - 有Parakeet/Whisper或ONNX Runtime经验,并能看到明显的性能或稳定性改进方法的人。 - 想要特定功能(例如,更好的多语言支持、更先进的后处理,或与他们的编辑器/IDE集成)的人。 代码库在这里: `<a href="https://github.com/Whamp/chirp" rel="nofollow">https://github.com/Whamp/chirp</a>` 如果你尝试使用,我非常感兴趣: - 你硬件上的CPU使用率和延迟, - 它在你的键盘布局和应用程序中的表现, - 你遇到的任何奇怪的故障情况或使用上的烦恼。 欢迎在评论中提问或深入讨论技术细节。