返回首页
最新
字节跳动悄然推出了Seedance 2.0。值得关注的并不是常规的文本转视频升级,而是其参考/条件系统。
与典型的文本转视频(T2V)模型不同之处在于:
- 同时接受四种输入方式:文本、图像(最多9张)、视频片段(最多3个,总时长≤15秒)和音频(最多3个,总时长≤15秒)。混合输入的上限为12个文件。
- 基于参考的生成:可以使用图像锁定构图/角色外观,使用视频片段指定摄像机运动和动态,使用音轨驱动节奏和速度。输出包括生成的音效/背景音乐。
- 关键声明是“音频驱动的视频”,而不是“附带音频的视频”——这意味着运动实际上是与音频输入的节拍结构同步的,而不仅仅是叠加在一起。
- 支持视频的延续/扩展,具有镜头间的一致性,并可以对现有片段进行编辑操作(角色替换、片段插入/删除)。
- 输出时长:4–15秒,可选择。内置音效。
技术上这为何重要:
目前大多数视频模型将音频视为后处理步骤。而Seedance 2.0似乎直接将扩散过程与音频特征相结合,这也解释了其节拍同步的行为。多参考@标记系统(@image1用于构图,@video1用于运动,@audio1用于节奏)表明其架构是混合条件的,而非简单的连接。
目前尚未看到官方公告。相关文档已在Dreamina(字节跳动的创意平台)上发布。想知道是否有人对其架构有更多细节。
如果您希望在发布后进行测试,以下是一些适合您使用场景的平台:
- 对于开发者(API):https://www.atlascloud.ai/
- 对于创作者:Higgsfield, ImagenArt
有关Seedance 2.0的更多信息:https://www.reddit.com/r/SoraAi/comments/1qxdv5u/seedance_20_teaser_better_than_sora_2_true/
Seedance 2.0讨论的子版块:https://www.reddit.com/r/Seedance_AI
超级碗(抱歉,称之为“超级赛事”)的经济学实在是荒谬。
30秒的广告时间要花费800万美元。
我们想量化一下当你忽视这些广告时会发生什么,因此开发了这个信息娱乐应用。
“大冲洗”让你在广告休息期间可以“打卡下班”,并为你在卫生间、去拿零食等情况下“毁掉”的广告价值提供一张收据。
这个应用是在一个黑客马拉松中用3到4天的时间开发完成的。我们试图让用户界面呈现出“奢华的荒谬感”。
非常希望能收到关于Three.js在移动设备上性能的反馈 :shy:!
<a href="https://bigflush.base44.app" rel="nofollow">https://bigflush.base44.app</a>
嗨,HN,
我创建了一个叫做 faaadmv 的小工具。它是一个 REPL,帮助检查和续订加州机动车辆管理局(DMV)的注册。它以有头模式运行 Playwright,这样我可以观察自动化过程,并在需要时解决任何验证码。
我之所以制作这个工具,是因为加州 DMV 网站的用户体验非常糟糕。每年我都错过截止日期,然后不得不支付数百美元的罚款。我想要一个快速、可视化且不那么令人沮丧的工具。
主要功能:
- REPL 菜单,简单的按键操作
- 默认开启观察模式
- 支持多辆车辆
- 状态检查和续订的干运行
- 本地加密配置和支付密钥链
- 屏幕截图和调试日志本地存储
代码库: [https://github.com/AshKash/faaadmv](https://github.com/AshKash/faaadmv)
我现在无法测试真实的续订流程,因为我的车辆最近刚续订过。我希望能找到人来帮助测试和调试续订流程。
我非常希望能收到关于用户体验和可靠性的反馈。如果你尝试了这个工具并遇到问题,请分享发生了什么。
创作者在此。看到勒索软件在事件响应调查中通过将 .exe 文件重命名为 .pdf 来逃避杀毒软件后,构建了这个工具。
该工具使用魔法数字验证——检查 invoice.pdf 文件是否确实以 %PDF 开头。
轻量级(基于 inotify),能够隔离可疑文件,并提供 SIEM 兼容的日志。
在 Linux/Windows 上只需一行命令即可安装。期待反馈!
技术栈:Python、inotify(Linux)、watchdog(Windows)、YAML 配置。