返回首页

24小时热榜

2作者: Parkado大约 6 小时前原帖
嗨,HN, 我是Roland,过去几周我一直在构建AllBSides——一个汇集所有上传到YouTube的BSides会议演讲的目录。截至今天,已收录来自68个国家的227个章节的5,927位演讲者的8,643个演讲,总时长达到280天。转录文本大约有6000万字。 这个档案是分阶段完成的: 1. 手动映射每个BSides章节的YouTube频道 2. 从Supabase提取每个视频和转录文本 3. 使用Haiku对每个转录文本进行标签提取(工具、主题、难度、团队、演讲风格、研究方法等) 4. 通过Sonnet进行分类和去重 5. 最后通过Opus进行验证 6. 进行人工验证——曾经,管道显示有超过16,000条AI建议需要人工验证。今天,大部分问题已经解决。 到目前为止,总的LLM成本约为200欧元。整个管道可以从头重建。 每个演讲都有自己独立的页面,包含嵌入的视频、完整的转录文本、演讲者、标签和“相关演讲”。在整个语料库中提到的每个工具/框架/协议/标准都有自己的页面(共跟踪3,968种不同的技术)。 在构建过程中,我收集了一些有趣的事实: - (A) 该网站目前94%的流量来自机器人。其中,约80,000次/月是AI训练爬虫(ClaudeBot、GPTBot、meta-externalagent)。在演讲档案上线后的7天内,所有主要的AI实验室都已获取了整个语料库。实时观察这一发现的级联效应令人震惊。 - (B) 分类工作是最难的部分。区分“工具”、“框架”、“协议”和“概念”听起来简单,但当你有5,000个模糊的提取实体时就不那么容易了。三层LLM管道帮助很大——单靠Haiku噪音太大,单靠Opus成本太高。 - (C) 提到的顶级工具:Wireshark(343)、PowerShell(342)、Metasploit(332)、Burp Suite(322)、GitHub(296)、VirusTotal(273)、Docker(253)、Splunk(251)、Nmap(247)、MITRE ATT&CK(237)。这个列表反映了BSides演讲实际讨论的内容,而不是供应商整理的内容。 - (D) 五月是BSides活动的高峰期——29个活动,占所有有日期活动的17%。 - (E) 前1%的演讲(按观看次数计算的86个视频)占所有观看量的51%。其余99%则是非常小众的内容,往往是某一特定技术的唯一视频记录。 这个技术栈故意保持精简:Go、SQLite、原生JavaScript、BunnyCDN。构建时进行静态渲染。不使用框架,没有客户端状态。网站的运行成本约为每月50欧元。 关于这篇文章背后的数据和更多信息,可以在网站底部的“统计”链接中找到。 欢迎对数据管道、分类决策或AI爬虫模式在档案上线时的表现提出问题。对于下一步该构建什么的反馈,我非常欢迎——我是一名独立开发者,正在逐步摸索。 ——Roland (parkado)
2作者: hhuytho大约 13 小时前原帖
我们使用了PrismML最近发布的Bonsai 1.7B三元模型(<a href="https:&#x2F;&#x2F;github.com&#x2F;PrismML-Eng&#x2F;Bonsai-demo" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;PrismML-Eng&#x2F;Bonsai-demo</a>),对其进行了6小时的自主进化搜索,以优化Metal内核。该搜索过程完全自动化。 与未修改的上游版本 llama.cpp(在相同的Bonsai/Q2_0提交和相同的M4 Max配置下)相比,优化结果如下: - tg128: 309.82 → 442.42 t/s (+42.0%) - pp512: 4250.32 → 4622.63 t/s (+8.8%)