解释网页的四种类型,熟悉网页的分类。
顾名思义,被抓取的网页就是被蜘蛛抓取过的网站内容。待爬取是尚未被爬取但已进入等待列表的页面。可抓取的是尚未找到但已经存在的页面。暗网是搜索引擎通过链接自行抓取找不到的页面,需要手动提交。
通常我们分析的页面抓取主要是非暗网的页面抓取,每个搜索引擎都有自己独特的算法,所以不做过多分析。
搜索引擎的抓取策略有两种,即广度优先策略和深度优先策略。
广度优先策略的解释
大多数网页除了自己的链接之外,还有很多链接。例如,详细信息页面有相关新闻和相关案例的链接。当一个搜索引擎访问一个页面时,将页面上的所有链接依次入库,然后对找到的页面进行爬取,再将新发现的URL入库进行爬取。按照这个逻辑,依次爬行就是广度优先策略。如图:抓取顺序为1-2,3,4-5-11-6-12-3-7-13-8-14。用图文了解自己。
深度优先策略的解释
按照页面上的一个链接一层一层爬,直到爬完最后一个链接,然后回到初始位置用同样的方法爬完剩下的链接,这就是深度优先策略。
无论是广度优先还是深度优先,只要有足够的时间,搜索引擎都可以抓取所有的页面,但是搜索引擎的抓取能量是优先的,不能保证抓取页面的全面性。搜索引擎由于自身资源的原因,不得不考虑抓取页面的优先级。还有另外两种抓取策略。
重要网页的优先抓取策略
总之,搜索引擎的资源是有限的。在搜索引擎资源有限的情况下,尽量依靠外部链接来引导蜘蛛,提升网站权重。这是SEO搜索引擎优化网站长期运营最重要的。