返回首页
最新
HTML转Markdown转换器为人类和大型语言模型(LLM)生成干净、可读的内容,但在这个过程中,DOM结构会丢失。你可以将Markdown输入到LLM中以提取结构化信息,但这在每一页上每次都会消耗令牌。
如果LLM还能够看到每个内容片段在DOM中的位置呢?这样,它就可以生成强大的抓取代码——稳定的选择器和XPath,可以在不依赖LLM的情况下运行,从而节省令牌并提高在长或重复页面上的准确性。
Scrapedown正是实现这一目标的工具:它将HTML转换为Markdown,并为每个元素注释其CSS选择器和/或XPath,这样LLM就可以一次性生成精确、可重用的抓取代码。