3作者: sporkland12 天前原帖
我注意到一个现象,似乎在新版本发布前的一周或几周内,我的Codex代理表现得更差。我在想,供应商是否会调整努力参数,以腾出硬件来支持新版本的发布。这是一个双赢的局面,因为当新模型发布时,假设努力水平恢复到正常状态,常规用户会觉得新模型的表现有天壤之别。 这是一个已知现象吗?有没有人试图客观地测量这些情况?
1作者: tantara12 天前原帖
世界杯今天正式开幕。我开发了一个世界杯模拟器,通过多个智能体进行比赛。它使用了四个智能体: 1) 两个经理智能体:负责阵容、战术、策略等 2) 主智能体:生成比赛过程和事件 3) 裁判智能体:出示红牌/黄牌 随着比赛的进行,这些智能体之间会共享上下文。你可以在 <a href="https:&#x2F;&#x2F;worldcup-sim.bg.app&#x2F;" rel="nofollow">https:&#x2F;&#x2F;worldcup-sim.bg.app&#x2F;</a> 查看模拟结果。快去看看你喜欢的球队表现如何吧。