返回首页

一周热榜

3作者: andrewcourtice3 天前原帖
经过几年的努力,期间有过短暂的中断,我终于将 Ripl 推向了发布的阶段。Ripl 是一个库,用于通过单一 API 在任何上下文中(默认支持画布、SVG、WebGPU 和终端)渲染 2D 和 3D 形状。该库尽可能模仿 DOM,复制事件系统、对象图、类似 CSS 的查询、渐变和关键帧动画等功能。 我还使用核心包构建了一个完整的数据可视化库,名为 @ripl/charts。没错,您甚至可以通过大约 2-3 行代码的修改将图表渲染到终端上 :) (请查看终端演示)。 文档可在此处查看: [https://www.ripl.rocks](https://www.ripl.rocks) 演示可在此处查看: [https://www.ripl.rocks/demos](https://www.ripl.rocks/demos) 图表可在此处查看: [https://www.ripl.rocks/docs/charts](https://www.ripl.rocks/docs/charts) 我还构建了一个交互式的游乐场,您可以实时体验,而无需从 NPM 等安装。游乐场可在此处访问: [https://www.ripl.rocks/playground](https://www.ripl.rocks/playground) 核心库相当稳定,我可能会在接下来的几周内发布 v1。图表、3D 和终端包仍然处于实验阶段。 我很想听听大家对此的看法。
2作者: ZDisket3 天前原帖
大家好,我基于我高度升级的 VITS 模型,制作了一个 TTS 模型,该模型以外部说话者嵌入(Resemble AI 的 Resemblyzer)为条件。<p>这个模型大约有 3100 万个参数(ONNX 格式),经过调优以实现低延迟和本地推理,并且已经导出。我试图突破小型快速模型的极限。它在服务器 CPU 上的运行速度是实时的 5.6 倍。<p>该模型支持声音克隆和声音混合(将两个或多个说话者的声音混合以生成新声音),许可证为 Apache 2.0,并使用 DeepPhonemizer(MIT 许可证)进行音素化,因此没有许可证问题。<p>代码库包含检查点、运行方法以及 Colab 和 HuggingFace 演示的链接。<p>不过,由于模型体积小,音频质量并不是最佳,并且由于它是基于 LibriTTS-R 和 VCTK(这两个都是完全开放的数据集)进行训练的,因此说话者的相似性也不是很好。<p>尽管如此,我希望它能对你们有所帮助。
2作者: hariprasadr7 天前原帖
我们现在大约有15个人,以前“自然而然”能运作的事情开始出现问题。大家都知道的决策变得模糊不清。新员工的适应期变得漫长。不同团队在不同的假设上进行工作。 对于经历过这个阶段的人来说,最初出现问题的是什么?你们是如何应对的?