1作者: sssparkkk3 个月前原帖
近一个星期以来,Gemini模型选择器中缺少了“专业”模型,只有“快速”和“思考”选项可用。这种情况发生在拥有有效AI专业订阅的用户中,并且似乎影响了相当一部分人(在Reddit上有提到)。<p>也许在Hacker News上发一个被点赞的帖子(如果你也受到影响的话)可以帮助让谷歌关注这个问题,或者甚至提供一些解决方案。谢谢!
3作者: fandorin3 个月前原帖
我明白了——大型语言模型(LLMs)确实有一定的价值,但远没有大家(尤其是来自人工智能实验室的人)所宣传的那么高。我不禁觉得,我们几乎已经处于这个泡沫的顶端——但在这里,似乎大多数人并不这样认为…… 然而,就在2026年,我们经历了以下事件: - AI.com以7000万美元的价格出售——Crypto.com的创始人购买它以推出另一个“个人AI代理”平台,但在超级碗广告首秀时迅速崩溃。 - MoltBook热潮——一个Reddit的克隆网站,AI机器人在上面互相对话,充斥着加密骗局和“AI意识”的帖子。超过250,000条机器人的帖子消耗了大量计算资源,究竟有什么实际价值呢?[0] - OpenClaw——一个“超级开源AI代理”,但安全隐患重重。 - GPT-5.3-Codex和Opus 2.6发布。评论者指出,他们很难找到前一版本无法处理的任务。改进充其量只是增量式的。 我理解大型语言模型确实有合理的应用场景,但炒作与实用性之间的比例似乎完全失衡。 难道我没有看到什么吗? [0] https://www.technologyreview.com/2026/02/06/1132448/moltbook-was-peak-ai-theater/
1作者: mert_gerdan3 个月前原帖
我在Tavus从事实时语音/视频人工智能的工作,过去几年我主要关注机器在对话中的反应。<p>一直以来让我感到困扰的是,几乎所有的对话系统仍然将一切简化为文字记录,并丢弃了许多需要在后续处理中使用的信号。一些现有的情感理解模型试图将情感分析和分类为一小部分任意的类别,但它们在实时处理时要么不够快速,要么不够丰富,无法有信心地完成这一任务。<p>因此,我构建了一个多模态感知系统,它为我们提供了一种编码视觉和音频对话信号的方法,并通过将一个小型的语言模型与这些信号对齐,将其翻译成自然语言,使得代理能够“看见”和“听见”你,并且你可以通过与OpenAI兼容的工具架构在实时对话中与其进行交互。<p>它输出关于互动中发生的事情的简短自然语言描述——例如不确定性增加、讽刺、 disengagement(脱离参与)或甚至单次对话中注意力的转移。<p>一些快速规格: - 每次对话实时运行 - 以约15帧每秒的视频处理及与对话重叠的音频 - 处理细腻的情感,包括耳语与大喊 - 基于合成数据和内部对话数据进行训练<p>欢迎提问或深入讨论架构/权衡问题。<p>更多细节请见:<a href="https://www.tavus.io/post/raven-1-bringing-emotional-intelligence-to-artificial-intelligence">https://www.tavus.io/post/raven-1-bringing-emotional-intelli...</a>
1作者: ERROR_0x063 个月前原帖
我对供应商拿着SOC 2证书来推销自己感到非常厌倦,仿佛这就能达成交易。很好,你通过了审计——但你不支持单点登录(SSO),我无法从你的平台获取日志,而且你的工程师可以访问我所有的数据。我并不在乎你的SOC 2。是的,你需要这个来证明你不是一个随便的应用程序(其中一些实际上也有SOC 2),但我更关心的是我能否根据我的技术栈和需求来保障你的工具的安全性。请用Traction向我展示你实施了哪些产品安全措施。谢谢。