2作者: ZDisket17 天前原帖
大家好,我基于我高度升级的 VITS 模型,制作了一个 TTS 模型,该模型以外部说话者嵌入(Resemble AI 的 Resemblyzer)为条件。<p>这个模型大约有 3100 万个参数(ONNX 格式),经过调优以实现低延迟和本地推理,并且已经导出。我试图突破小型快速模型的极限。它在服务器 CPU 上的运行速度是实时的 5.6 倍。<p>该模型支持声音克隆和声音混合(将两个或多个说话者的声音混合以生成新声音),许可证为 Apache 2.0,并使用 DeepPhonemizer(MIT 许可证)进行音素化,因此没有许可证问题。<p>代码库包含检查点、运行方法以及 Colab 和 HuggingFace 演示的链接。<p>不过,由于模型体积小,音频质量并不是最佳,并且由于它是基于 LibriTTS-R 和 VCTK(这两个都是完全开放的数据集)进行训练的,因此说话者的相似性也不是很好。<p>尽管如此,我希望它能对你们有所帮助。
4作者: Stwerner17 天前原帖
作为一个实验,我开始让Claude用虚构故事来向我解释事物,结果效果非常好。因此,我开始探索这个方法的极限,以及需要什么才能将其打磨到足以公开分享的程度。<p>在过去的几个月里,我为这个项目构建了世界观手册、撰写了视觉风格指南以及其他相关文档……可以把它们想象成我们现在用于代理开发的所有Markdown文件的虚构等价物。在此之后,我又花了大约两周的时间进行额外的打磨工作,以去除许多冗余内容和LLM特有的表达方式。如果有人对此过程感兴趣,我也很乐意回答任何问题。
4作者: xpnsec17 天前原帖
我对在大型语言模型(LLM)时代,科技行业的人们是如何避免技能退化的很感兴趣。 我们都看到了这个争论的两种观点,一方面是“让他们退化,LLM是未来,看看算盘就知道了!”另一方面是“我不使用LLM,它们会出错并且妨碍工作”。但对许多人来说,现实是LLM确实提供了真正的性能提升,并承担了许多任务,即使它们会出错并需要人们的监督。 我倾向于谨慎对待技能的退化,因为在中长期内,LLM将如何影响工作场所以及哪些技能会被使用仍有太多未知。因此,我想知道你们是如何在面对“让它实现”的诱惑时,保持现有技能不退化的?
1作者: iRespectYui17 天前原帖
图像/视频/音频生成的人工智能确实令人印象深刻,但我实在无法理解为什么还有人会相信大型语言模型(LLMs)会取代所有其他白领工作……更不用说会导致通用人工智能(AGI)了。 现在是2026年,我们仍然没有看到任何大型语言模型完成像打败《宝可梦蓝版》这样简单的任务。 看来大型语言模型实际上只是一些愚蠢的文本生成器,最多只擅长三件事: - 生成代码 - 翻译/总结文本 - 伪“谷歌搜索”(因为真正的谷歌搜索已经变得糟糕透顶)
1作者: clmnt17 天前原帖
我们一直在为 Hugging Face Hub 开发 CLI 扩展,而 hf-agents 是一个有趣的分享内容。 它在后台使用 llmfit 来分析您的硬件,并自动选择最适合的模型和量化方式——无需手动寻找 GGUF。然后,它在此基础上启动一个 Pi Agent。只需一个命令,完全本地,完全开放。 如果您一直在使用 Claude Code 或 Codex CLI,并希望有一个完全在您自己的硬件/模型上运行的解决方案,这个轻量级的替代方案值得一试。 欢迎提问——也很想知道大家在什么硬件配置上运行这个。
1作者: schnau_software17 天前原帖
你知道在巴勃罗·毕加索生存的时期还有谁吗?当时世界上发生了什么事情?<p>你出生时有哪些历史人物在世?<p>我创建这个网站是为了帮助将各种历史事实串联起来,提供背景信息。它变成了一种有趣的方式来探索维基百科并获得一些视角。<p>你发现了哪些让你感到惊讶的历史联系?
5作者: enahs-sf17 天前原帖
你好,HN, 我在玩过一次这种骰子版本的游戏后,创建了Crossle。它仅支持网页和移动端,玩法类似于Wordle。目标是使用拼字游戏中的单词创建一个完全连接的填字游戏,每个单词至少有3个字母,所有字母都必须使用。这是一个有趣的周末编码项目,我非常希望能得到大家的反馈。 谢谢!