6作者: tjruesch2 个月前原帖
嗨,HN, 我是 Bridge Anonymization 的维护者之一。我们之所以开发这个工具,是因为现有的敏感用户内容翻译解决方案无法满足许多注重隐私的客户(如政府、银行、医疗等)的需求。 我们无法将个人身份信息(PII)发送到第三方 API,但标准的内容遮蔽会破坏翻译质量。如果将 “John” 处理为 “[PERSON]”,翻译引擎就会失去性别上下文(通常默认为男性),这在法语或德语等语言中会导致语法不一致。 因此,我们为 Node.js/Bun 构建了一个可逆的、本地优先的处理流程。以下是我们在实现过程中处理复杂部分的方法: 0. 映射 我们使用类似 XML 的标签,带有唯一标识 PII 的 ID,例如 `<PII type="PERSON" id="1">`。翻译模型及其周边系统自计算机辅助翻译工具诞生以来就一直使用 XML 数据结构,因此这提高了与现有工作流程和系统的兼容性。一个 `PIIMap` 被本地存储,以便在翻译后进行恢复(默认使用 AES-256-GCM 加密)。 1. 混合检测引擎 显然,单靠正则表达式或命名实体识别(NER)都不足以解决问题。 - 结构化 PII:我们对 IBAN(模97)和信用卡(Luhn)等信息使用严格的正则表达式和校验和进行验证。 - 软 PII:对于姓名和地点,我们直接在处理过程中通过 `onnxruntime-node` 运行量化的 `xlm-roberta` 模型。这使我们能够避免使用 Python 侧车,同时保持包的“轻量级”(量化模型仍然约 280MB,但在桌面环境中是可以接受的)。 2. “幻觉”保护(模糊恢复) 大型语言模型(LLMs)在翻译过程中常常会“扭曲” XML 占位符(例如,将 `<PII id="1"/>` 转换为 `< PII id = « 1 » >`)。我们实现了一个模糊标签匹配器,使用灵活的正则表达式模式来检测这些伪影。即使属性顺序被重新排列或引号被更改,它也能识别标签,从而确保我们始终能够将令牌映射回原始加密值。 3. 语义遮蔽 我们目前正在研究“语义遮蔽”——为 PII 标签添加上下文(如 `<PII type="PERSON" gender="female" id="1"/>`),以保留翻译的(性别)上下文。目前,我们依赖于轻量级查找表的方法,以避免第二个机器学习模型的开销或微调的麻烦。到目前为止,这在大多数用例中效果良好。 代码采用 MIT 许可证。我很想听听其他人是如何在保护隐私的自然语言处理管道中处理“上下文丢失”问题的!我认为这也可以很容易地推广到其他大型语言模型应用中。
1作者: codenameaustin2 个月前原帖
嗨,HN!<p>我是一个独立创始人,专注于期权交易。我厌倦了每月花费100到300美元购买各种不同的工具:一个用于GEX,一个用于回测,一个用于扫描,另一个用于交易想法,还有一个用于波动性……这感觉就像是被成千上万的订阅逼死。<p>于是我建立了一个网站,替代了所有这些工具,并且完全免费。<p>对于任何进行期权交易的人来说,这基本上是你所有喜欢的赚钱工具汇聚在一个地方,还有一个非常慷慨的免费层,除非你是个疯狂的重度用户,否则你永远不需要付费。<p><i>目前包括的内容:</i><p>- 期权回测工具 - GEX(Gamma Exposure)可视化 - 交易想法与流动性 - 异常期权活动扫描器 - 概率计算器与DTE分析 - 策略模型与优势工具 - …还有很多我以前在10多个不同网站上支付的工具<p><i>我为什么要构建它</i><p>在过去几年里,我发现自己为了有效交易而 juggling 太多昂贵的订阅。<p>有些工具每月150美元,有些80美元,还有一些基本功能被锁在付费墙后。这给新交易者带来了巨大的经济障碍——正是那些最需要这些工具的人。<p>因此,我花了过去三个月的时间,专注于每一个细节,构建一个单一、简洁、快速的工具箱,让交易者在一个地方获得所有所需,而不必忍受痛苦的订阅叠加。<p><i>数据透明性</i><p>这个工具箱使用ORATS的机构数据,通常我每月需要支付600美元。<p>没有阴暗的数据抓取。没有可疑的聚合器。<p>只有一个使用高质量期权数据的干净界面。<p><i>适合谁</i><p>- 期权卖方 - 方向性交易者 - 收益交易者 - 学习期权的人 - 以及任何厌倦了5到10个订阅以进行基本研究的人<p><i>在这里试试</i><p><a href="https://optionstradingtoolbox.com" rel="nofollow">https://optionstradingtoolbox.com</a><p>问我任何问题!我会在评论中活跃!<p>感谢阅读<p>圣诞快乐,Austin(独立创始人)