1作者: Andrei93832 个月前原帖
一个针对Linux的NVIDIA Broadcast替代方案,基于NVIDIA Maxine VideoFX SDK。<p>它具有本地处理的视频效果:背景模糊、背景替换、背景移除。该工具支持按需视频处理,因此您可以在后台运行它,几乎不会占用系统资源,只有在使用虚拟摄像头时才会调用设备摄像头。这对于会议、录制视频和直播非常有用。<p>背景故事:这个想法始于2023年,当时我在11年级,需要参加一些在线编程竞赛,但我想使用Linux,因为那样我的开发工作流程更快。我发现NVIDIA实际上发布了Maxine VideoFX SDK,而Broadcast正是基于此开发的,并且附带了一些示例源代码,因此实现一个可用的工具并不困难(那时我只是使用distrobox手动在命令行中启动我想要的效果)。它运行得很好,但比赛结束后我完全忘记了这件事。最近,我想起了它,并认为这是一个很好的机会来围绕它构建一个用户界面,特别是借助现代设计工具如v0及其朋友们。<p>非常希望听到大家的反馈,希望你们中的一些人觉得它有用!
2作者: arajnoha2 个月前原帖
当前一代人生活在围绕个人资料演变的应用程序中。那一个链接就是他们通往精心策划生活的入口。这是一个极简主义、以手机为首的在线商店平台,实际上可以免费启动和运营。唯一收取费用的是成功销售时的佣金。 我尝试在一个单一的仪表板中平衡定制选项和设置的复杂性与简单性。快来看看吧!
85作者: anishathalye2 个月前原帖
上个月,我们回到麻省理工学院(MIT),教授经过修订的《缺失学期》课程,距其首次推出已有六年时间(该课程在Hacker News上得到了广泛讨论,相关链接见 <a href="https://news.ycombinator.com/item?id=22226380">https://news.ycombinator.com/item?id=22226380</a> 和 <a href="https://news.ycombinator.com/item?id=34934216">https://news.ycombinator.com/item?id=34934216</a>)。<p>我们根据个人经验以及过去几年领域内的重大变化(例如,AI驱动的开发工具的普及)对课程进行了更新。2026年的课程包括了之前课程中四个讲座的修订版本,并增加了五个全新的讲座:<p>- 开发环境与工具<p>- 代码打包与发布<p>- 代理编程<p>- 超越代码(软技能)<p>- 代码质量<p>我们非常希望听到Hacker News社区的反馈,以改进当前或未来的课程版本。特别是,我们对社区对我们纳入AI相关主题的看法感到好奇(例如,专门 dedicating 一节课讨论代理编程;尽管我们尝试通过大量免责声明和在《超越代码》中专门讨论AI礼仪来进行平衡)。<p>-- Anish, Jon 和 Jose
4作者: MbBrainz2 个月前原帖
我创建了TTSLab——一个免费的开源工具,可以直接在浏览器中使用WebGPU和WASM运行文本转语音和语音转文本模型。<p>无需API密钥,无需后端,数据不会离开你的设备。<p>当你打开网站时,你会立即听到声音——登陆页面会自动生成来自三句话的语音,完全在你的浏览器中,无需任何设置。<p>然后你可以自己尝试任何模型:输入文本,点击生成,立刻听到结果。模型只需下载一次并会被缓存到本地。<p>最具实验性的功能:一个完全在浏览器中的语音助手。它将语音转文本 → 大语言模型 → 文本转语音串联起来,所有操作都在你的GPU上通过WebGPU本地运行。你可以与AI进行口头对话,而无需任何网络请求。<p>当前支持的模型: - TTS:Kokoro 82M、SpeechT5、Piper (VITS) - STT:Whisper Tiny、Whisper Base<p>其他功能: - 并排模型比较 - 在你的硬件上进行速度基准测试 - 对支持的模型进行流式生成<p>来源:<a href="https://github.com/MbBrainz/ttslab" rel="nofollow">https://github.com/MbBrainz/ttslab</a>(MIT)<p>我特别希望得到的反馈: 1. 在你的硬件上性能感觉如何? 2. 我应该添加哪些模型? 3. 语音助手对你有效吗?这是最具实验性的部分。<p>基于ONNX Runtime Web(<a href="https://onnxruntime.ai" rel="nofollow">https://onnxruntime.ai</a>)和Transformers.js构建——非常感谢这些社区使得浏览器中的机器学习推理成为可能。