返回首页

24小时热榜

1作者: n1xis10t大约 10 小时前原帖
Common Crawl大约包含3000亿个页面,如果将所有内容以提取文本格式下载,压缩后仅占约816 TB。如果有人利用这些数据创建一个搜索引擎,我认为它会比Bing更全面,可能与Google相似。我所知道的基于Common Crawl的搜索引擎仅使用了它们可用数据的一小部分。你知道有没有使用全部数据的搜索引擎吗?