嘿,HN,
我想分享一个我正在开发的项目,叫做 Convoxa。它是一个原生 iOS 的转录/总结工具。我有两个主要目标:保持高效和保护隐私。
技术栈
100% Swift 和 SwiftUI:没有繁重的跨平台封装或冗余的依赖。
二进制大小:最终构建的大小仅为 4.8 MB。
转录:使用苹果最新的语音 API,以实现最大程度的隐私和效率。
挑战:绕过 4K 上下文限制
最大的技术难题是处理苹果的基础模型。默认的上下文窗口限制为 4096 个标记,这对于超过 10 分钟的会议记录几乎没有用处。
我最终构建了一种递归分块方法,以“喂养”模型长文本数据,而不丢失对话的全局上下文。我使用滑动窗口的方法,每个块的总结为下一个块提供信息,确保最终输出在块之间的接缝处不会出现“幻觉”。现在它在支持的硬件上足够稳定,可以处理长音频,同时完全在设备上进行处理。
隐私与 AI 模式
设备端:需要苹果智能 - 完全本地处理。
云端:提供智能洞察的推理(零数据保留)。
我目前处于预售阶段(将于 2 月 3 日发布),非常希望能从这个社区获得一些关于性能和分块逻辑的反馈。
App Store: [https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446](https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446)
返回首页
最新
<a href="https://archive.is/mi308" rel="nofollow">https://archive.is/mi308</a>
因为他用完了所有的缓存。
萨提亚·纳德拉(Satya Nadella)等人曾宣称生成性人工智能(GenAI)将取代各种软件即服务(SaaS)服务中的“业务逻辑”或“中间层”。他们的想法是用户可以通过聊天界面与生成性人工智能模型互动,然后该模型会直接与数据库进行交互。这显然会使几乎所有的SaaS应用程序变得多余。
然而,实际上发生的情况是生成性人工智能正在“向上堆叠”,越来越远离数据库。现在没有人再谈论取代SaaS了。相反,生成性人工智能变成了一种装饰,像是撒在现有SaaS应用程序上的一层东西,并没有真正替代它们的任何现有功能。
这种“向上堆叠”的转变充分反映了我们当前模型的无能。它们如此无能和不可靠,以至于无法替代Excel的任何一个部分。例如,微软所做的只是“在上面加上生成性人工智能”,将“弄明白”如何使其有用的责任转移给了用户。我们从“用聊天代理替代它”变成了“只是在上面加一个聊天代理,希望能有所作为”。换句话说,我们实际上让我们的SaaS应用程序变得更加复杂,而不是整合它们的功能,从而简化它们。
不使用API,实际上是从头开始训练一个模型,即使是一个小模型。<p>关于数据、训练过程或输出,有什么让你感到惊讶的地方吗?