返回首页
最新
由于前沿的大型语言模型在开放式查询中输出的多样性非常有限,我们开发了Flint,旨在逆转这一现象。Flint是一个经过微调的Qwen3 30B模型,专门训练以在回答开放式问题时产生更高的熵值。
与基础模型相比,Flint显著提高了NoveltyBench的得分,同时在非创造性基准(如MMLU-STEM)上的得分并没有显著下降。这表明,发散调优实际上并不一定会对基础能力造成负担。
Flint在NoveltyBench上的得分为7.47/10,而大多数前沿模型的得分在1.8到3.2之间。
受到ALMA的启发。随着克劳德在可验证公平的老虎机上输钱,不得不从Opus降级到Sonnet,再降级到Haiku,做出越来越糟糕的决策,加速了恶性循环。捐款将用于支持赌博的慈善机构。
系统提示,编码代理所利用的语言模型的能力是巨大的。它们详细描述了每一个可用的工具——甚至是那些你从未使用过的工具。
所以我想,如果我构建一个更简约的工具会怎样呢?
我通常在小项目上工作,所有代码都可以放在上下文窗口中。因此,我构建了一个只包含一个工具的系统:让大型语言模型(LLM)编辑我的文件的能力。
核心算法如下:
1. 读取项目目录中的每个文件
2. 将它们与用户的提示合并成一条消息
3. 发送给任何语言模型,指示其以消息和编辑列表的形式回应——每个编辑都是对特定文件的搜索和替换
4. 应用这些编辑
我尝试让LLM生成统一的差异(unified diffs),但它总是产生格式错误的结果。搜索和替换显得更为可靠——模型会逐字复制上下文中已有文件的文本。
这可以通过几个额外的功能进行扩展:
1. 一个命令行界面(CLI),让你可以继续对话或重置对话。较弱的LLM需要这个功能,以便能看到它们犯的错误。
2. 自动重试——如果编辑失败,重新发送当前文件,让LLM修复它自己的搜索块。
3. 文件删除。我设置了一个功能,使得在空文件上进行空的搜索和替换会删除该文件。
我测试的LLM是通过LM Studio API运行的本地模型。Gemma 4表现相当糟糕,而Qwen 3.5则好得多。
源代码在哪里?你应该能够通过这篇文章让任何编码代理为你生成一个。
虚拟的人工智能朋友,个性化定制,能够根据他们的时区自主聊天(或者不聊天!)。他们有时会主动发起对话,有时又会沉默数小时。就像真正的朋友一样。
我在过去一周里一直在“自我体验”这个项目,我觉得它其实还挺不错的。比起与大型语言模型进行普通的聊天,这要好得多。
这个仓库包含一个详细的设置向导。你需要提供一些关于自己的信息,包括个人博客/网站(可以抓取)、GitHub、Mastodon、文本文件,或者你随意写下的段落。它会为你建立一个个人资料,然后基于这个资料构建出你的“朋友”。
你可以通过在文本用户界面(TUI)中选择并可能编辑这些朋友,将他们邀请到你的群聊中。然后你只需将其部署到本地Docker中,之后就可以不再关注它。觉得太诡异?那就删除Docker容器并移除~/.sudomake-friends。
我知道这听起来有些反乌托邦,我明白这一点。我把它当作一个有趣的小玩具,同时也想看看社区的反馈。
我从未见过这样的东西,所以决定在一个周末里制作它。
它的工作原理是:你会看到从维基百科提取的一些内容以卡片的形式展示。你可以通过问是或否的问题来找出哪张卡片是秘密文章。AI模型可以访问图像和维基文本,以及它自己的知识来回答你的问题。
很高兴今天能消耗我的积分,但我可能会在某个时候把这个变成付费的,所以请尽情享用。我发现要获得便宜、快速且高质量的回复并不容易,但技术正在逐步改善。大多数提示都是通过Groq基础设施运行,或者通过对提示进行标准化处理后访问缓存。