返回首页
一周热榜
大家好,这是我一直在开发的一个开源项目,旨在为基于终端的编码代理添加语音输入/输出功能。
关于新的终端编码代理,我特别喜欢的一点是能够进行多任务处理,但目前的情况有点像特斯拉的自动驾驶,仍然需要你的手放在方向盘上。你需要经常检查是否需要输入,或者是否偏离了轨道。为了实现完全的免提操作,我想添加文本转语音(TTS)和语音识别(ASR)功能。然后,我还为TalkiTo添加了Slack和WhatsApp的接口。
这个项目完全开源,遵循自带密钥(BYOK)理念,并且配置为可以与任何主要的ASR/TTS提供商兼容。如果你想要一个不错的免费/私密选项,它也支持本地的whisper和kokoro/kittentts。
它的工作原理是包装编码代理并捕获输入/输出。虽然有一个MCP服务器在运行,但主要是用于配置——我发现使用MCP进行语音交流或监听太慢。MCP服务器的好处是你可以输入(或说)“talkito disable ASR”或“talkito change tts to kokoro”。
这里有一个我制作的演示视频:<a href="https://www.youtube.com/watch?v=pf8jFt0smqs" rel="nofollow">https://www.youtube.com/watch?v=pf8jFt0smqs</a>
我喜欢把它看作类似于SuperWhisper,但增加了TTS功能,专注于编码代理和可配置性。
非常期待收到反馈。
谢谢!