返回首页
最新
今天克劳德·科德(Claude Code)两次停下来问我一个问题,然后像我已经回答了一样继续说下去。当我问它为什么时,它说它没有。
这是随机现象,还是最近其他人也遇到过?在几个月的频繁使用中,我不认为我见过类似的情况。
https://x.com/sixhobbits/status/2016128163500151162?s=20
几周前,我几乎不会用 Python 编程,也不会写一行 Go 代码。在看到 Claude 令人印象深刻地处理一个工作项目后,我决定尝试用它来教我编程。我让它搭建项目框架,在函数上方写待办事项,并告诉我一个合理的工作顺序。这虽然不能教我软件设计,但确实帮助我克服了学习生态系统和标准库的障碍。
现在,我仍然不能独立编程,但我对阅读他人的代码感到足够自信,甚至可能提交一个小的 PR 来修复一个 bug。
这是我第一次尝试一个普遍有用的项目。它是一个可变的 admission webhook。这个项目仍在进行中,但它已经可以正常工作,我在自己的 k3s 集群上使用它。它为需要身份验证的 Pod 添加了 oauth2-proxy。在集群中,我用 Zitadel 替换了 Authentik,我需要一些东西来填补 Authentik 的代理提供者的角色。
由于现在有很多人使用 AI 并感到沮丧,我希望这能激励大家将 AI 作为学习新知识的工具,而不是仅仅作为助手。希望这里更有经验的程序员能告诉我这个项目中哪些地方看起来不够好(我想肯定有)。我担心如果我继续这样下去,我会学得像 Claude 一样编程。
嗨,HN,
我创建了 EchoEntry([https://echoentry.ai](https://echoentry.ai))——一个专门针对数字优化的语音转文本 API。
问题:通用的语音转文本 API 在处理数字时表现不佳。“一零五”有时会变成“105”,有时又变成“15”。对于医疗应用、仓库系统或交互式语音应答,这种不一致性会破坏工作流程。
我的解决方案:对 1-999 的英语口语数字进行了微调的 Whisper-small 模型,涵盖了五种英语口音。对于 1-3 位数字,准确率达到 95%。
技术栈:
- 自定义 Whisper 模型(1.7GB)
- FastAPI 后端
- 部署在 8GB Linode 上
- 使用 FFmpeg 进行音频处理
现在就试试吧(两个命令,无需注册):
# 下载测试音频
```bash
curl -O [https://echoentry.ai/test_audio.wav](https://echoentry.ai/test_audio.wav)
```
# 测试 API
```bash
curl -X POST [https://api.echoentry.ai/v1/transcribe](https://api.echoentry.ai/v1/transcribe) \
-H "X-Api-Key: demo_key_12345" \
-F "file=@test_audio.wav;type=audio/wav"
```
目前处于免费测试阶段(每个密钥每月 1,000 次调用)。希望能得到以下反馈:
1. 什么样的准确率阈值才能让您认为这是可投入生产的?
2. 还有其他我忽略的数字密集型用例吗?
3. 您会愿意为此付费,还是更倾向于使用通用的语音转文本?
文档:[https://echoentry.ai/docs.html](https://echoentry.ai/docs.html)
欢迎就微调过程或部署相关的技术问题进行咨询!
我使用Reddit已经很长时间了,发现对类似帖子反应不一。有时我会收到积极的反馈和赞;而其他时候却会收到很多负面回应,且没有明显的解释。经过两年的使用,我仍然不理解Reddit用户的思维方式或这些反应背后的心理。