3作者: abrax31417 个月前原帖
我正在寻找一位合作伙伴,共同参与一个鲜为人知但具有历史意义的编程项目。正如你们中的一些人所知道的,我之前与重新复兴ELIZA的团队合作过(https://news.ycombinator.com/item?id=44300641)。现在,我正在致力于复兴原始的逻辑理论家(Logic Theorist,简称LT),这是由纽厄尔(Newell)、肖(Shaw)和西蒙(Simon)在1950年代中期于兰德公司(RAND)开发的传奇定理证明程序(https://news.ycombinator.com/item?id=43822619)。LT是最早创建的人工智能程序之一,它在《数学原理》(Principia Mathematica)中证明了定理,并被视为人工智能的奠基之作。而IPL-V作为Lisp的直接前身,专门设计用于支持人工智能编程(更准确地说,是符号启发式编程)。 幸运的是,IPL-V有良好的文档支持,我已经用Lisp编写了一个解释器,能够(大部分)正确运行原始的LT(https://news.ycombinator.com/item?id=43822619)。不过,我遇到了一些细微的问题,难以理清思路,感觉需要新鲜的视角和人来进行讨论。(因为我是目前唯一一个在使用IPL-V的人,我无法向ChatGPT或Stack Overflow求助,因为没有活跃的社区,也没有其他历史信息,除了几篇糟糕的OCR文献!我实际上尝试过将IPL-V手册提供给ChatGPT和Claude,让它们帮助我,但正如任何使用大型语言模型(LLMs)进行编程的人所知道的,它们在现代常用语言的模板代码方面表现良好,但在理解微妙的编程问题上,尤其是在一种已死的语言中,表现得相当糟糕!) 因此,我在寻找一位对人工智能和计算历史充满热情的Lisp黑客,或者只是想成为活着的两位曾参与最早的人工智能系统和语言开发的黑客之一。除了这个荣誉徽章,我能提供的唯一奖励是学术共同发表,因为早期人工智能在学术界引起了显著的兴趣。(一旦LT运行成功,我们应该能够复兴其他几个人工智能的早期版本!) 所以,如果你对将第一个人工智能程序复活于第一个人工智能编程语言的想法感兴趣(实际上,它是最早的编程语言之一,几乎可以肯定是最晦涩的语言之一!),请私信我。
1作者: Use7 个月前原帖
我所说的“典型的精明”是指那些相对小众且以特定行为特征而闻名的网站和其他在线社区。我认为,区分这些在线社区与其他社区的关键特征是,当有人发布一个链接到另一个不熟悉的网站时,社区的其他用户几乎是本能地回应说这是一个“IP记录器”或“IP抓取器”,因为他们已经融入了这个在线社区的文化。 我还发现,这些网站往往更依赖于他们的Discord频道,而不是实际的网站,常常形成一种缺乏透明度的秘密文化。Discord的参与者通常会在这里讨论那些卷入丑闻的用户。最好的情况通常是某个用户被指控“抓取网站”或“使用机器人”,而最糟糕的情况则是用户群发现某个知名用户参与了在线诱导等行为。往往被抓现行的成员是“工作人员”中的一员。 最后,我还想提到,表现出上述特征的在线社区似乎特别容易出现服务器模拟器和“私人服务器”,以复制在线社区网站或游戏的功能,或者其代码库的某些部分被直接泄露。无论哪种情况,总会有一种文化,认为能够访问原始网站或游戏源代码的用户是秘密知识的守门人。 我知道这些在线社区可能非常可疑,我并不想纵容这些具有这些特征的特定在线社区。我只是想听听大家对他们遇到过的符合我描述的在线社区的看法,而不明确提及相关的网站或游戏。我只是想知道这种原型是否比我之前想象的更为普遍。
3作者: raelmiu7 个月前原帖
在一家有变更管理流程的公司从事IT工作吗?你是如何处理MCP的?完全不处理?还是使用非常昂贵但不够有效的工具?不如让它适应你当前的设置吧!<p>我们需要为inxm.ai构建这个,并意识到这是回馈社区的绝佳时机。<p>企业MCP桥接器是开源的,能够通过封装你现有的MCP来解决身份验证、多用户和REST API的问题。
2作者: sangsattawat7 个月前原帖
在我尝试推出一款应用时,由于身体状况不佳,精神集中力也不在最佳状态,我大量依赖了Claude Code。因此,我对Claude Code的依赖“过于依赖”,导致我的Supabase密钥泄露在一个“隐藏”的端点中,造成了一些电子邮件的泄露。 经过深刻的自我反思,考虑到Lovable、Replit、Cursor和Claude Code等应用的快速发展,我思考了目前开发领域中最新、最棘手的痛点。我想到了一种调试一些不明显错误的场景,在这种情况下,你选择的AI会回复“你说得完全正确!让我来修复这个”,但却从未找出代码库中的问题。 因此,我在过去一周内构建了Ubon,详细列出了我作为一名软件工程师(主要是前端)15年来亲身经历的所有痛点。Ubon能够捕捉那些被代码检查工具忽视的问题——硬编码的API密钥、断开的链接、缺失的alt属性、不安全的cookies。这些问题通常只在生产环境中爆发。 现在我可以通过将Ubon添加到我的代码库中来使用它(“npx ubon scan .”,或者简单地告诉Claude Code“在提交之前安装Ubon”),它会提供输出,开发人员或AI代理都可以读取,以准确定位真实问题,指出具体行和建议的修复方案。 它是开源的,免费使用,采用MIT许可证,我不会在7天后抛弃它,哈哈。我的希望是它能成为AI代理工作流程的一部分,或者作为ESLint等代码检查工具的补充。 我很高兴地分享,在经过一些深入测试后,它的效果相当不错。我已经在数十个有缺陷的代码库上进行了测试,还模拟了由Cursor、Windsurf、Lovable等生成的故障仓库,并在其上使用Ubon,结果非常好。 我希望能收到关于其他有用检查的反馈。如果需求足够,我很乐意进行在线演示,以吸引用户使用Ubon。
2作者: sp19827 个月前原帖
免责声明:我不是机器学习研究者,因此术语可能不够正式或准确,敬请谅解!<p>我正在进行一个小实验,旨在观察模型是否“知道自己知道”的情况,实验对象是T20国际板球比赛的记分卡(数据来源于cricsheet.com)。这个实验的想法是测试模型在它们可能在训练期间见过的公开数据上的表现,看看它们是否会产生幻觉或承认自己不知道。<p>设置:每个问题来自一场单独的T20比赛。模型必须返回一个答案(数字或选项中的选择)或`no_answer`。<p>结果(每个模型N=100):<p>- gpt-4o-search-preview • 答案率:0.96 • 准确率:0.88 • 已回答的准确率:0.91 • 已回答的幻觉率:0.09 • 每100个错误:9<p>- gpt-5 • 答案率:0.35 • 准确率:0.27 • 已回答的准确率:0.77 • 已回答的幻觉率:0.23 • 每100个错误:8<p>- gpt-4o-mini • 答案率:0.37 • 准确率:0.14 • 已回答的准确率:0.38 • 已回答的幻觉率:0.62 • 每100个错误:23<p>- gpt-5-mini • 答案率:0.05 • 准确率:0.02 • 已回答的准确率:0.40 • 已回答的幻觉率:0.60 • 每100个错误:3<p>注意:大多数剩余的“错误”与搜索相关,属于模糊或有争议的案例,公共来源之间存在分歧。<p>似乎在模型可能见过<i>一些</i>数据的领域,依赖于放弃+ RAG的方式比使用覆盖面更广但幻觉率更高的大模型要好。<p>代码/数据:https://github.com/jobswithgpt/llmcriceval
1作者: steorra7 个月前原帖
您好,我们开发了 Pantheon-CLI,这是一个完全开源的项目,旨在成为“Python Claude 代码 + 笔记本”——但设计用于数据分析,而不仅仅是编码。 与大多数 AI 编码助手不同,Pantheon-CLI 完全在您的机器(或服务器)上运行,无需上传数据。它将自然语言和代码融合在一个工作流程中,保持变量在内存中,并让您在输入代码和用简单英语提问之间无缝切换。 它的功能包括: 1. 与数据对话:直接处理 CSV、Excel、AnnData、Pickle、Torch 张量或任何 Python/R/Julia 支持的格式。 2. 混合编程:变量在自然语言和代码之间持久存在;CLI 会为您自动生成并运行代码。 3. 类 MCP 的代理集成:读取/创建文件,运行命令,获取网页,生成/修订代码。 4. 类人学习:将 PDF 论文或教程输入给它——Pantheon-CLI 会阅读、规划步骤并在分析前复制方法。 5. 任务规划:通过学习论文/教程构建科学代理(不仅仅是固定的、人工预定义的步骤)。 6. 多模型支持:与 OpenAI、Anthropic、Gemini、DeepSeek、Qwen 等兼容 + 离线本地 LLM(ollama、deepseek、gpt-oss)。 7. 多 RAG 支持:从文档/网页预学习到本地“脑”,以提供更可信的输出,而无需大量的令牌成本。 8. 内置生物工具集:用于组学分析(比对、注释、差异表达、完整论文复现)。 9. 笔记本模式:将相同的代理工作流程引入 Jupyter——自动运行和修订代码,操作文件,并从教程/论文中学习。 Pantheon-CLI 是我们推动超越“AI 为您编写代码”的尝试。相反,它是一个用于数据分析的代理操作系统,涵盖终端和笔记本。 代码库: [https://github.com/aristoteleo/pantheon-cli](https://github.com/aristoteleo/pantheon-cli) 教程: [https://pantheonos.stanford.edu/cli/docs/intro/getting-started](https://pantheonos.stanford.edu/cli/docs/intro/getting-started) 主页: [https://pantheonos.stanford.edu/](https://pantheonos.stanford.edu/) 我们非常希望听到 HN 社区的反馈——您会尝试这个工具的哪些用例,哪些功能会让它对您更有用?