返回首页
24小时热榜
亲爱的 Hacker News,
我诚挚地邀请您参与我这个由人工智能管理的迷你游戏网站的公开测试。提前感谢您的参与!
在有限的时间内,我将所有免费功能设置为开启。我希望您在探索人工智能对游戏的理解时能玩得开心!我在某些地方进行了调整,以帮助保持视觉的一致性。
如果您能够选择参与数据分析,我将不胜感激。
$2,300 的 API 代币...
祝好!
在过去的一两个月里,从DeepSeek V4 Pro开始,出现了许多低价的中国型号。它们的性能在我看来或多或少是相似的:Mimo V2.5 Pro、MiniMax M3,以及刚刚发布的GLM 5.2等。<p>你现在使用的是哪个型号?为什么选择它?有哪些优点和缺点?
这篇投稿讲述了我如何向大约60位期待已久的用户推出一个无限制的LLM(大型语言模型)服务,随后立即提供了一个完全失效的死循环模型,以及大多数人如何合理地选择离开,但由于有几位非常友好的人仍然留下来,我们得以维持这个项目,尽管现在仍然相当混乱,但正在逐渐获得关注。
稍微回顾一下——我相信AI代理的核心意义在于它们应该持续工作。它们应该读取文件、重试、搜索、编码、总结、运行工具,并循环直到任务完成。当雇主为此付费时,谁在乎成本,但当涉及到我个人的资金或爱好时,如果每次循环都像是一个小的财务事件,你就会开始照看这个代理,而不是使用它,这样就没有乐趣了。
另一方面,计量定价让我担心使用过多。使用订阅让我觉得必须用尽每一个神奇的百分比,否则我就是在“浪费”。如果有一个无限制的服务提供商就好了……
于是我加入了AMD开发者计划——我获得了一些积分来启动自己的MI300x,并开始在AMD上尝试vllm/sglang推理服务。
在了解AMD MI300x后,我做了一些简单的计算:
租用MI300x每小时2.00美元 = 每月约1500美元。它大概可以支持150个用户使用一个小型MOE模型,比如qwen-35b-3a,甚至可能更多。
1500 / 150 = 每月10.00美元,我们都可以以小价格玩转代理。
你可以稍微超额订阅,所以我定价为每用户每月6美元,提供2个生成槽、128k上下文、没有令牌限制、没有速率限制。
我建立了网站、路由器,创建了等待列表,然后过度优化了MI300x,导致vllm基准测试输出超过3000,吞吐量超过40000……但我没有测试最终的配置/服务命令……这就是我灾难性启动的地方。你无法提示这个模型而不让它陷入循环或出错,它真是个诅咒。正是在这里,我们失去了很多用户。
幸运的是,我的朋友有几块3090显卡,于是他给我提供了救生艇,开始在2块3090上为我们托管qwen,最终我们有了一个不再以每小时2.00美元计费的可操作模型,适合我们这可怜的3个用户。
我们开始吸引更多用户,因此我们升级到了4块3090。我们还有很多空间可以容纳更多用户,但即便如此,自那时以来:
我们配置vllm错误了大约15次
一块GPU坏了
我们失去了电力
我为openclaw、hermes、pi-mono做了一堆一键启动,但没有一个能正常工作,这可能让人们失去了兴趣。这些仍然在我们的网站上。
……但那些知道自己在做什么的人似乎真的很喜欢这个价格。总的来说,我们的正常运行时间大约有98%。已经过去一个月了。我们都学到了很多,即使我们已经在软件工程/系统工程/人工智能方面有背景,承担几个付费用户的责任迫使我们真正专注于为他们提供良好的产品。现在我觉得我们可能快要达到收支平衡,能够支付电力/托管费用(如果包括3090的资本支出,我们仍然在亏损)。
我们的收支平衡点是迁移到云端,以最大化MI300x的使用,一旦我们获得用户,它就已经调试好并准备好投入使用。
我发现,在某些方面,订阅我们的服务比运行模型更便宜(但作为一个热爱本地模型的人,我完全理解)。
自那时以来,我一直在开发一个实际上可以与小型模型如qwen配合使用的桌面代理——这将取代那些失效的一键启动。它是基础版,但它是一个开箱即用的解决方案。我将其开源,你可以在这里查看我所说的内容:https://github.com/yolo-auto-org/yolo-auto-desktop,我们的网站是yolo-auto.com,并且我们有一个糟糕的免费层来证明它的有效性!
无论如何,希望你能笑一笑或觉得有趣!如果有任何问题,请随时提问。