返回首页
最新
下周6月12日,SpaceX将开始其被华尔街收购的旅程。这最终将导致“糟糕化”,因为SpaceX正在亏损数十亿美元,而新投资者期待定期的盈利报告,这将迫使SpaceX不断追求增长,偏离其最初的使命。
不幸的是,这次首次公开募股(IPO)对散户投资者、养老金以及其他所有投资者来说,都是一次巨大的损害,只是为了迫使全球的资本投资于SpaceX。
我认为最好开始着手开发一个不受华尔街控制的开源版本的SpaceX。
你希望在一个由社区拥有的开源SpaceX中看到什么?
我花了七个月的时间开发一个我希望在之前的工作中就能拥有的工具。MimicScribe 是一款适用于 macOS 的菜单栏应用,属于“人工智能记笔记工具”类别。它具备准确的设备内扬声器识别(可能是首个实现这一功能的工具),实时会议讨论要点,适用于发现性通话,并且拥有完全基于键盘和语音驱动的界面。
我认为扬声器识别系统的准确性是其最大的优势。我使用了 Fluid Audio 的移植版(<a href="https://github.com/fluidInference/FluidAudio" rel="nofollow">https://github.com/fluidInference/FluidAudio</a>)作为基础。为了提高准确性,该系统利用 Parakeet STT 的语法结构线索按句子进行掩蔽。通过在该掩蔽内进行第二组样本采集以进行聚类分配,它利用了大多数人在商务会议中不会完成彼此的……三明治这一事实。它倾向于稍微过度分段,因为我发现合并段落或重新分配扬声器要比解开错误合并容易得多。
该应用在会议中提供讨论要点,使用针对发现性通话调优的提示。它可以建议探讨性问题,帮助你提取更多细节,或者通过“魔法棒”式的问题帮助你重新聚焦于大局(例如:“你理想的系统应该如何运作”)。获得低延迟模型以提供新颖、相关且完全不虚构的信息有些困难,它往往会频繁重复转录内容,但有时也会产生一些小亮点,因此最好将其视为灵感来源,并保持警惕。
该应用的设置允许通过按住快捷键来开始和结束录音,而不是连接到你的日历服务。我更喜欢这种方式,以保护隐私并防止转录历史变得杂乱。点击快捷键可以在你当前的屏幕上显示和隐藏一个始终在最上层的覆盖层,无论你是否将其他应用全屏。除了简单的导航外,你还可以使用语音命令进行会议后的修正或补充,例如,你可以简单地说“将这个扬声器与那个扬声器合并”来清理转录内容。
它还具备按需对话/口述功能,并结合了 LLM 清理——这是该应用最初的功能,但这个工具对开发者来说吸引力十足,开发者们对此非常感兴趣。
一位在金融行业工作的开发者朋友查看了网站,并表示他会退出,因为隐私方面的故事不够强大,因此我添加了一个完全在设备上的模式和自带密钥的选项。使用云模型确实为体验增添了很多,包括上下文感知的扬声器合并和片段清理、会议中的摘要项目、归属的行动项目等。在设备模式下是完全免费的,扬声器识别仍然非常有用。
隐私问题是我对该应用最大的担忧,特别是因为其目标用户群体更为技术化。我非常希望听到大家对此的看法,任何反馈都将非常有帮助。