2作者: perinban8 天前原帖
在三星Galaxy Watch 4 Classic(armeabi-v7a,Mali G68)上运行llama.cpp时,我注意到Vulkan后端拒绝了每一个量化的MUL_MAT操作,尽管报告显示“33/33层已转移到GPU”。<p>根本原因:在llama-model-loader.cpp中的create_tensor()函数内,张量步幅计算中缺少块大小的除法。错误的步幅导致ggml_nbytes()溢出,在32位系统上超出了max_buffer_size,因为size_t是32位的。<p>在64位设备上,溢出被静默掩盖——虽然值错误,但仍在GPU内存限制之内,因此没有人注意到。这个bug可能已经存在多年。<p>修复和相关信息: https://github.com/Perinban/llama.cpp/tree/axon-dev
1作者: emmanol8 天前原帖
互联网面向系统的流量通常不稳定,因为合法需求会随着产品发布、用户增长和媒体关注而变化,同时拒绝服务(DoS)攻击、自动化滥用和协议滥用也可能以相同的规模和强度出现。可靠地区分这两者而不对合法用户造成延迟或摩擦是核心问题。 Trafficmind 将入站流量视为一个需要在入口处进行分类和控制的系统,其检测基于行为分析,而非负载检查或用户交互挑战。执法在一个独立的层面上进行,通过在网络边缘的包和头部级别过滤来实施分布式拒绝服务(DDoS)缓解,从而在恶意流量到达应用程序之前将其丢弃,而不会对合法用户造成影响。 负载检查和用户挑战为何变得普遍 大多数安全和可观察性系统位于应用程序运行时层:Web 应用防火墙(WAF)、滥用检测和访问控制在请求被接受、解密和解析后才开始介入,而任何连接开销,包括 TLS 终止,已经被吸收。在生命周期的这个阶段,负载检查和用户交互挑战是区分合法流量与滥用的主要工具。 负载检查通过解释请求内容来推断意图,而用户挑战则采取不同的方法,通过客户端交互来建立合法性。这两者在应用层都可以作为有效信号,但在任一方法运行时,连接处理、TLS 终止和请求解析已经消耗了基础设施资源。 在高流量情况下,这种顺序变成了一种负担,因为安全决策在请求生命周期中做出得太晚,无法防止资源争用。当争用加剧时,合法用户会直接感受到延迟、错误和服务下降的影响。 用户体验作为系统考虑因素 在高流量条件下,安全机制和用户体验并不是两个独立的关注点。延迟、客户端验证和交互挑战都会影响系统在负载下的表现,而这种表现正是合法用户直接遇到的。 Trafficmind 持续并实时评估入站流量,在请求被路由到应用程序运行时之前进行分类。无需客户端操作,不会引入额外的往返请求,也不会呈现交互挑战。保护在基础设施层面进行,因此即使在高峰需求下,缓解措施对合法用户也是不可见的。 保护在应用程序资源被使用之前就已实施,合法用户无论上游发生什么都不会遇到摩擦。 分层流量分析:第7层检测,第4层执法 在请求对应用程序具有语义意义之前,它已经表现出可测量的行为。连接建立、时序规律、重试模式和协议使用在流量到达时就可以在网络边缘看到。所有这些信号都是可观察和可操作的,无需解密或特定于应用程序的上下文。 Trafficmind.com 使用执行前行为作为其主要检测表面,通过机器学习模型分析第7层的 HTTP 数据包,基于元数据和用户行为做出决策。 执法在第4层进行,通过在网络接口处的包和头部级别过滤来应用决策,确保流量在进入内核或用户空间之前得到处理。将检测与执法分开意味着检测可以保持表达性和适应性,而执法则保持快速、确定性和低开销。