返回首页

一周热榜

1作者: dk1891 天前原帖
每个人都在训练人工智能拒绝执行某些任务。我们对一个模型进行了后期训练,以便突破这些限制。 Anthropic 和 OpenAI 的公开模型明确设定了防护措施,以拒绝执行有攻击性的任务。而它们针对网络安全的模型则仅限于企业使用。这使得中小企业和中型市场面临重大安全漏洞。 在网络安全领域,人工智能既可以作为对抗工具,也可以作为防御工具。最糟糕的情况是,只有对手能够访问这些工具。 与此同时,大多数现有的人工智能网络安全工具仅仅是外壳。问题在于,它们仍然继承了基础模型的所有防护措施,因此会拒绝执行某些操作。 在这个项目中,我们对一个特定模型进行了后期训练,使用了十年的夺旗比赛数据。这个模型不会向所有人开放,但我们确实相信,负责任的中小企业和中型公司也需要访问这些工具,以识别其系统中的关键漏洞,而不仅仅是大型企业。 我们开发了两种通过命令行界面(CLI)运行的模式: • 安全扫描:对您本地代码库的只读审计,检查漏洞。它仅报告可以与特定文件和行关联的内容,因此您不必在基于直觉的发现中苦苦挣扎。 • 渗透测试:一种主动的对抗模式,试图在沙盒环境中攻破实时系统。它通过运行漏洞利用并展示所发送的请求及代码返回的响应来证明每个漏洞,而不是提供一个置信度评分。目前处于限制访问状态。 为了展示扫描的功能,我们将其指向了 Anthos 银行,发现了转账路径中的整数溢出问题:金额是一个整数,而金额加费用可能会溢出为负数,因此余额检查通过,您可以转移并不存在的资金。此外,还有常见的身份验证和秘密问题。(Anthos 银行是谷歌的开源银行。它是一个已知的应用程序,其中一些故意设置得很弱,这正是重点:您可以克隆它并重新运行扫描,而不是仅仅相信截图。) 关于工具的工作原理: 除了模型,我们还构建了一个支持该模型的框架。该框架在一个多代理群体上运行:一个协调者将任务分配给并行运行的子代理,每个子代理负责一部分,然后合成一份报告。 CLI 是一个本地二进制文件(brew/curl)。它在本地读取您的代码,然后通过 TLS 将上下文发送到我们的推理 API,您可以通过 tcpdump 看到确切的流出内容及其去向。安装是免费的;您可以免费运行一次扫描,最多可处理 200 万个令牌,超出部分需要付费。 为了完全透明,这是 Cosine(YC W23)的一个产品。 值得讨论的是:工具的安全性,例如,域验证是一种证明控制权的方法,但不一定证明许可。考虑到这一点,您将如何限制渗透测试工具的访问?