大家好,我们是LemonSlice的联合创始人(<a href="https://lemonslice.com">https://lemonslice.com</a>)。我们专注于训练互动头像视频模型。我们的API允许您上传照片,并立即与该角色进行类似FaceTime的通话。这里有一个演示:<a href="https://www.loom.com/share/941577113141418e80d2834c83a5a0a9" rel="nofollow">https://www.loom.com/share/941577113141418e80d2834c83a5a0a9</a>。
聊天机器人无处不在,语音AI最近也迅速发展。但我们相信,视频头像将成为对话式AI最常见的形式。大多数人更愿意观看视频而不是阅读文本。问题在于,实时生成视频是非常困难的,而克服“恐怖谷”现象则更具挑战性。
我们尚未突破“恐怖谷”。没有人做到过。但我们正在接近,我们的照片级真实头像目前是业内最佳(您可以自己判断:<a href="https://lemonslice.com/try/taylor">https://lemonslice.com/try/taylor</a>)。此外,我们是唯一能够生成动物和高度风格化卡通头像的模型。试试这个:<a href="https://lemonslice.com/try/alien">https://lemonslice.com/try/alien</a>。警告!与这个小家伙交谈可能会改善你的心情。
今天,我们发布了我们的新模型* - Lemon Slice 2,这是一个20亿参数的扩散变换器,能够在单个GPU上以20帧每秒生成无限长度的视频,并开放我们的API。
我们是如何让视频扩散模型实时运行的呢?并没有单一的技巧,而是许多技巧的叠加。第一个重大变化是使我们的模型具备因果性。标准的视频扩散模型是双向的(它们同时查看当前帧之前和之后的帧),这意味着无法进行流式传输。
接下来就是将所有内容适配到一个GPU上。我们从全窗口注意力切换到滑动窗口注意力,这解决了我们的内存瓶颈。我们将去噪步骤从40步精简到仅几步 - 质量下降的程度低于我们的预期,尤其是在使用基于GAN的蒸馏之后(尽管调整对抗损失以避免模式崩溃也是一段冒险的旅程)。
其余的工作是推理:将RoPE从复杂改为真实(这个很酷!),精度调优,融合内核,特殊的滚动KV缓存,许多其他缓存等等。我们尽可能地削减毫秒,最终达到了实时效果。
我们为HN设置了一个访客游乐场,您可以在不登录的情况下创建和与角色对话:www.lemonslice.com/hn。对于希望使用我们API构建的用户(我们有一个新的LiveKit集成,令人兴奋!),请在HN游乐场获取一个优惠码,享受您的第一个专业月免费(价值100美元)。查看文档:<a href="https://lemonslice.com/docs">https://lemonslice.com/docs</a>。定价基于使用,每分钟视频生成费用为0.12-0.20美元。
期待您的反馈!我们也很想看到您制作的任何酷炫角色 - 请在评论中分享它们的链接。
*我们去年为我们的V1模型做了一个Show HN:<a href="https://news.ycombinator.com/item?id=43785044">https://news.ycombinator.com/item?id=43785044</a>。从技术上讲,它令人印象深刻,但与我们今天的产品相比实在太差了。
返回首页
最新
我创建Lightbox是因为我不断遇到同样的问题:一个代理在生产环境中失败,而我无法知道实际发生了什么。<p>日志分散,LLM的“我调用了工具”并不可靠,而重新运行也不是确定性的。<p>本周,大量Clawdbot事件进一步强调了这一点。具有完全系统访问权限的代理可能会暴露API密钥和聊天记录。提示注入现在成为一个主要的安全隐患。<p>当代理能够访问你的文件系统、执行代码和浏览网络时……你可能需要一个防篡改的记录,准确记录它采取的每一个行动,特别是当恶意提示或被攻陷的网页可能在会话中劫持代理时。<p>Lightbox是一个小型Python库,可以将代理进行的每一次工具调用(输入、输出、时间)记录到一个仅可追加的日志中,并附带加密哈希。你可以使用模拟响应重放运行,比较不同版本之间的执行,并在事后验证日志的完整性。<p>可以把它想象成飞机黑匣子,但用于你的黑客工具箱。<p>*它的功能:*<p>- 本地记录工具调用(无云端,使用你的基础设施)<p>- 防篡改日志(哈希链,可验证)<p>- 精确重放失败的记录响应<p>- 命令行界面用于检查、重放、比较和验证会话<p>- 与框架无关(适用于LangChain、Claude、OpenAI等)<p>*它不具备的功能:*<p>- 不重放LLM本身(仅记录工具调用)<p>- 不是仪表板或分析平台 <p>- 不试图取代LangSmith/Langfuse(解决的是不同的问题)<p>*我关心的使用案例:*<p>- 安全取证:代理表现异常,是不是提示注入?检查记录。<p>- 合规性:“证明你的代理上周二做了什么”<p>- 调试:在不重新运行昂贵的API调用的情况下重现失败<p>- 回归测试:比较不同代理版本之间的工具调用模式<p>随着代理变得越来越强大和自主(Clawdbot/Molt、Claude计算机使用、Manus、Devin),我认为我们将需要像航空业一样的黑匣子。<p>这是我对此原始需求的尝试。<p>目前还是早期版本(v0.1),故意保持简约,采用MIT许可证。<p>网站:<<a href="https://uselightbox.app" rel="nofollow">https://uselightbox.app</a>> <p>安装:`pip install lightbox-rec`<p>GitHub:<<a href="https://github.com/mainnebula/Lightbox-Project" rel="nofollow">https://github.com/mainnebula/Lightbox-Project</a>> <p>希望能得到反馈,特别是来自那些关注代理安全或在生产环境中运行自主代理的人的意见。