返回首页

一周热榜

3作者: whamp5 天前原帖
我一直在相对封闭的Windows环境中工作,虽然可以运行Python,但无法安装或启动新的`.exe`文件。此外,内置的Windows语音输入功能被屏蔽(反正唯一好用的也不是本地的)。同时,我非常希望能够实现准确、快速的语音输入,而不需要将音频发送到云服务,也不需要GPU。我尝试过的大多数语音转文本设置要么需要特殊的启动器,要么需要GPU访问,或者在日常使用中操作不便。 为了满足这个需求,我开发了Chirp,这是一款完全本地运行的Windows语音输入应用,使用NVIDIA的ParakeetV3模型,并通过`uv`进行端到端管理。如果你的机器上可以运行Python,就应该能够运行Chirp——无需额外的可执行文件。 在底层,Chirp使用的是Parakeet TDT 0.6B v3 ONNX包。ParakeetV3的准确性与Whisper-large-v3相当(多语言的字错误率约为4.9,相比之下Whisper-large-v3约为5.0),但速度更快,并且在CPU上表现良好。 使用流程如下: - 一次性设置,下载并准备ONNX模型: - `uv run python -m chirp.setup` - 一个长时间运行的命令行进程: - `uv run python -m chirp.main` - 一个全局热键,用于开始/停止录音,并将文本注入到活动窗口中。 一些可能在技术上有趣的细节: - <i>仅限本地的语音转文本:</i>所有操作都在你的机器上使用ONNX Runtime;默认使用CPU提供者,如果环境允许,也可以选择GPU提供者。 - <i>配置驱动的行为:</i>一个`config.toml`文件控制全局热键、模型选择、量化(`int8`选项)、语言、ONNX提供者和线程管理。还有一个简单的`[word_overrides]`映射,可以修正模型经常误听的词汇。 - <i>后处理管道:</i>识别后,有一个可选的“风格指南”步骤,你可以指定提示,如“句子首字母大写”或“前置:>>”用于最终文本。 - <i>Windows上无需剪贴板操作:</i>该应用直接在聚焦窗口中输入;对于更合适的平台,提供了基于剪贴板的粘贴和清理行为选项。 - <i>音频反馈:</i>开始/停止声音(可配置)让你知道麦克风何时实际在录音。 到目前为止,我主要在自己的Windows机器上进行了英语语音输入和仅CPU的设置测试。可能还有很多粗糙的地方(不同的键盘布局、语言设置、企业IT政策等),我希望能得到以下人群的反馈: - 在受限的企业环境中工作并需要本地语音输入的人。 - 有Parakeet/Whisper或ONNX Runtime经验,并能看到明显的性能或稳定性改进方法的人。 - 想要特定功能(例如,更好的多语言支持、更先进的后处理,或与他们的编辑器/IDE集成)的人。 代码库在这里: `<a href="https://github.com/Whamp/chirp" rel="nofollow">https://github.com/Whamp/chirp</a>` 如果你尝试使用,我非常感兴趣: - 你硬件上的CPU使用率和延迟, - 它在你的键盘布局和应用程序中的表现, - 你遇到的任何奇怪的故障情况或使用上的烦恼。 欢迎在评论中提问或深入讨论技术细节。
3作者: spacemnstr420695 天前原帖
我在过去几天里一直在尝试(但未能成功)寻找一些真正的案例,看看人工智能代理在生产环境中如何实现规模化。除了编码代理和开发生产力工具之外,我很难找到任何看起来像真正可扩展的代理系统的东西。 目前人们所称的“代理”基本上只是将一两个大型语言模型(LLM)调用拼接在一起的确定性工作流程。这并不算是一个代理,充其量也只是一个API管道。 所以我真的很好奇:有没有真正的例子展示代理在大规模处理复杂、多步骤工作流程方面的能力?不是演示,不是玩具项目,也不是风险投资的幻灯片。
3作者: furk4n2 天前原帖
受到“rustlings”这个概念和名称的启发,这是一个小项目,旨在学习或完善 Docker 和 Compose 命令的基础知识。我计划在后续添加更多高级主题。希望能与大家讨论如何使这个项目对其他人更有用。
3作者: _phnd_2 天前原帖
在我们围坐在屏幕前之前,我们曾围坐在篝火旁讲述故事。我们天生就是讲故事的人,这正是我们与他人建立联系和理解世界的基本方式。 我一直在思考一个小团队如何保持简单高效,同时又能保持生产力和一致性。以下是我的看法: 1) 故事展开。定期召开会议,团队讨论在下次会议之前需要完成的下一步工作。 2) 情节。一个在代码库中的纯文本文档,显示已完成的工作、待完成的任务以及相关的备注或评论。 以下是项目的纯文本故事/叙述示例: ``` # 项目:云成本仪表板 为团队提供便捷的云成本数据访问。 ## 集成 DONE 云成本API已与计费系统集成 @bob ## 仪表板 仪表板必须从AWS、Azure和GCP拉取数据以进行比较。 TODO 设置云成本报告仪表板 @alice TODO 培训团队如何使用仪表板 @alice ``` 以下规则适用: - 任务状态为TODO或DONE,并且每个任务恰好占一行。 - 添加@姓名以分配任务。 - 新的TODO任务添加在底部(因此请查看底部以选择任务)。 - 可以随意在文件中添加任何自由文本/备注等,以提供上下文和见解。 随着项目的推进,故事逐渐展开并自我记录。 额外提示:使用任务行作为提交信息。 一些问题: - 这种方法是否足以让小团队保持生产力和专注? - 在小团队的背景下,有哪些必要的元素缺失? 期待听到你的想法!