关注联楷|返回首页 | 网站案例 | 帮助中心

合作共赢、快速高效、优质的网站建设提供商

上海网站建设 

服务热线:021-61394118

上海联楷科技

搜索引擎的地址仓库作用

作者:佚名   时间:2012-03-11   分享到:

为了避免搜索引擎收录页面时抓取到重复的地址,搜索引擎会建立一个地址仓库来存放记录,记录已经被发现还没有抓取的页面以及已经被抓取的页面.这也就是我们在百度统计里面看到有700条收录页,而实现只收录500条的原因.
  地址仓库中的url有如下几个来源:
1.人工录入的种子网址.
2.蜘蛛抓取页面后,从html中解析出新的链接url,与地址仓库中的数据进行对比,如果是地址仓库中没有的,那么就存入等待访问地址仓库中.
3.站长通过搜索引擎网页提交的表格中抓取,像谷歌站长工具中有一个提交网站地图的功能,就是用来做这个的.



如没特殊注明,文章均为上海联楷网络原创,转载请注明来自:http://www.linksj.com/hynews/20151126/n2235.html

上海联楷网络新闻