可扩展的清洁电子商务数据标准(Llms.txt的分支)

2作者: nicola_alessi4 天前原帖
问题: 大型语言模型(LLMs)在理解电子商务网站方面表现不佳。它们: 从杂乱的HTML中虚构价格和规格 在用户界面模板(如标题、弹窗、广告)上浪费令牌 在实时库存和价格更新方面遇到困难 我们的解决方案:基于Answer.AI的llms.txt进行分支,推出site-llms.xml,这是一种用于产品数据的XML网站地图协议。 商家提供: /site-llms.xml:所有产品URL的索引 /product/123/llms.txt:包含规格和价格的干净Markdown(示例见代码库) 好处: AI获取结构化数据,而不是进行抓取 商家可以控制暴露的信息(类似于robots.txt) 可扩展到数百万个产品(支持网站地图索引) 我们将以CC BY-SA协议开源此项目(与网站地图协议相同)。 欢迎HN的意见: 这是正确的抽象吗?它能适用于非电子商务网站吗? 代码库:github.com/Lumigo-AI/site-llms(欢迎点赞!)
查看原文
The Problem: LLMs are terrible at understanding eCommerce sites. They: Hallucinate prices&#x2F;specs from messy HTML Waste tokens on UI boilerplate (headers, popups, ads) Struggle with real-time inventory&#x2F;pricing updates<p>Our solution: A fork of Answer.AI’s llms.txt that introduces site-llms.xml, an XML sitemap protocol for product data.<p>Stores expose: &#x2F;site-llms.xml: Index of all product URLs &#x2F;product&#x2F;123&#x2F;llms.txt: Clean Markdown with specs&#x2F;pricing (example in repo)<p>Benefits: AI gets structured data instead of scraping Stores control what’s exposed (like robots.txt) Scales to millions of products (sitemap indexes supported)<p>We’re open-sourcing this under CC BY-SA (same as sitemap protocol). Would love HN’s thoughts:<p>Is this the right abstraction? Could it work for non-eCommerce sites?<p>Repo: github.com&#x2F;Lumigo-AI&#x2F;site-llms (stars welcome!)