1作者: n1xis10t6 天前原帖
似乎没有现代的元搜索引擎能够从其来源获取所有可用结果(通过分页),然后对这些结果进行爬取和重新排序。根据我从论文中了解到的,这正是原始元爬虫所做的。 我的问题是:你知道现代有哪种搜索引擎能做到这一点吗?除了元爬虫,你还记得其他旧的搜索引擎吗? 这可能会比较慢,但我认为这样的工具会非常棒,特别是如果它是开源的,这样我就可以提出并实验自己的排序方法。
1作者: n1xis10t6 天前原帖
Common Crawl大约包含3000亿个页面,如果将所有内容以提取文本格式下载,压缩后仅占约816 TB。如果有人利用这些数据创建一个搜索引擎,我认为它会比Bing更全面,可能与Google相似。我所知道的基于Common Crawl的搜索引擎仅使用了它们可用数据的一小部分。你知道有没有使用全部数据的搜索引擎吗?