什么是搜索引擎的Spider(蜘蛛)
什么是搜索引擎的Spider(蜘蛛)?现在做网站优化的管理员都知道我们得到了百度权重就是根据搜索引擎的Spider(蜘蛛)给我们网站做出的评分,这里不二网小编就为大家具体分析一下什么是搜索引擎的Spider(蜘蛛)。
Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是,只要是Spider抓到的URL, 都可能会参与排名,但参与排名的网页并不一定就被Spider抓取到了内容,比如有些网站屏蔽搜索引擎Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引 擎中参与了排名(例如天猫上的很多独立域名的店铺)。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相 关的问题
首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作, 所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取 策略的问题。抓取策略的选择会直接影响Spider所需要的资源、Spider所抓取网页占全网网页 的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?
其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性, 否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么Spider一 般会使用什么样的再次抓取和更新策略呢?
什么是搜索引擎的Spider(蜘蛛)?相信大家看过了以上文章以后对于什么是搜索引擎的Spider(蜘蛛)肯定已经完全明白了。
扫码访问手机页面