返回首页
一周热榜
大家好,我基于我高度升级的 VITS 模型,制作了一个 TTS 模型,该模型以外部说话者嵌入(Resemble AI 的 Resemblyzer)为条件。<p>这个模型大约有 3100 万个参数(ONNX 格式),经过调优以实现低延迟和本地推理,并且已经导出。我试图突破小型快速模型的极限。它在服务器 CPU 上的运行速度是实时的 5.6 倍。<p>该模型支持声音克隆和声音混合(将两个或多个说话者的声音混合以生成新声音),许可证为 Apache 2.0,并使用 DeepPhonemizer(MIT 许可证)进行音素化,因此没有许可证问题。<p>代码库包含检查点、运行方法以及 Colab 和 HuggingFace 演示的链接。<p>不过,由于模型体积小,音频质量并不是最佳,并且由于它是基于 LibriTTS-R 和 VCTK(这两个都是完全开放的数据集)进行训练的,因此说话者的相似性也不是很好。<p>尽管如此,我希望它能对你们有所帮助。
大家好,我刚刚开源了 OpenBrand - 只需一个 URL 就能提取任何品牌的标志、颜色和资产。
它采用 MIT 许可证,完全开源,完全免费。
可以在 openbrand.sh 上试用。
它还提供了一个免费的 API 和 MCP 服务器,供您在代码或代理中使用。
我们之所以开发这个工具,是因为在构建另一个产品时,我们需要将客户的品牌图像作为自定义背景引入。我们觉得这是一个相对简单的问题,但没有现成的开源解决方案,因此我们决定自己开发一个。
嗨,我是Nenad。我创建了Grafly(<a href="https://grafly.io" rel="nofollow">https://grafly.io</a>),因为我总是需要不同的工具来快速绘制架构图,但总是对用户界面、配色方案、使用模式感到不满,或者我必须登录,或者我的涂鸦存储在别人的服务器上。Grafly是一个完全在浏览器中运行的React/React Flow应用,这意味着所有内容都保存在localStorage中,数据不会离开你的设备。你可以使用基本形状、AWS/GCP图标、带有路径点的边缘,以及可共享的URL,这些URL在查询字符串中编码了整个图表(没有后端,只是LZ压缩)。此外,还有一个关于底层数据格式的描述,你可以将其提供给你的AI,以便它可以根据文本提示生成图表。我知道这不是完美的,但对我来说足够用了,也许对你们中的一些人会有帮助。代码在GitHub上,采用AGPL许可证。<a href="https://github.com/lnenad/grafly" rel="nofollow">https://github.com/lnenad/grafly</a>
我和一个朋友开发了一个浏览器原型,可以通过使用 getDisplayMedia、客户端唤醒词检测和服务器端多模态推理来回答屏幕上显示的内容的问题。
<p>困难之处:</p>
– 让模型能够指向特定的用户界面元素
– 在多步骤工作流程中保持一致性(例如:“帮我在 Tinkercad 中创建一把剑”)
– 防止无限镜像效应,以及窗口共享与全屏共享之间的混淆
– 保持语音 → 截图 → 推理 → 语音的延迟足够低,以便让对话感觉自然
我们把它包装成“Clippy”以增加趣味,但真正的实验是让模型工具调用新的截图,以帮助它获取更多上下文。
<p>一个实际的应用案例是远程技术支持——下次我妈妈打电话时,我会把这个发给她,而不是进行屏幕共享。</p>
<p>想知道哪些地方会出问题。</p>
你好,我刚刚推出了一款SaaS分析平台。在这个平台上,你可以连接Stripe和Google Ads以及其他一些工具,准确了解你在广告上的支出、从中获得的客户数量,以及你赚了多少钱或亏了多少钱。
我创建TTal是因为我厌倦了照看Claude Code会话。每次提交请求(PR)都意味着在多个窗口之间切换、复制粘贴审查反馈、告诉编码者需要修复的内容,并重复这一过程直到合并。我希望能够在做其他事情的同时,通过手机管理这一切。
TTal是一个Go命令行工具,能够在双层架构中协调多个Claude Code会话:
- 管理层——长期运行的代理,能够在会话间持久存在。它们负责制定计划,将计划拆分为任务、分配优先级,并在工作者遇到困难时帮助解除阻碍。你可以通过Telegram来管理它们。
- 工作层——为每个任务生成的短期代理。每个代理都有一个独立的git工作树和tmux会话。它们负责实现、审查、处理反馈和合并——整个PR循环是自主运行的,并且持续集成(CI)日志会反馈回来。完成后,一切都会自动清理。
代理、工作者和人类之间通过点对点消息桥进行通信——任何代理都可以直接向其他代理或人类发送消息。
我面临的另一个问题是:我需要专门的、长期存在的Claude Code代理来进行规划和研究,而不仅仅是一次性的编码会话。TTal的管理层正好满足了这一需求。我的协调代理负责制定计划,我的研究者探索代码库,而工作者则只需执行。
这个技术栈是有意设计为可组合的——使用taskwarrior进行任务管理,flicknote或简单的markdown用于知识/记忆,Telegram作为人机交互界面。所有组件通过命令行接口进行通信,无需SDK。
```bash
brew tap tta-lab/ttal
brew install ttal
```
GitHub: [https://github.com/tta-lab/ttal-cli](https://github.com/tta-lab/ttal-cli)
我还创建了一个仅使用bash的子代理运行时,几乎没有工具调用开销:[https://github.com/tta-lab/logos](https://github.com/tta-lab/logos)
欢迎提出关于架构或多代理工作流程的一般问题。
嘿,HN,
几周前我在这里发布了Knowza.ai,这是一个AWS认证考试准备平台,配有智能学习助手。我收到了关于注册和试用过程的一些非常有价值的反馈。
我想真诚地感谢每一位抽出时间试用、留下评论和分享建议的人。这对我来说真的很重要。
基于这些反馈,我进行了许多改进,并很高兴地分享现在有了一个免费套餐:您可以直接尝试10道练习题,无需注册/订阅,也不需要信用卡。
这对注册人数和注册后的互动产生了显著影响。我网站的转化率从约1%提升到了18%。
简要回顾一下Knowza的功能:
- 针对AWS认证考试的练习题
- 由Claude在Bedrock上提供的即时解释
- 涵盖多个AWS认证
希望您能再看一眼,并告诉我您的想法。我始终欢迎反馈。
[https://knowza.ai](https://knowza.ai)