品牌优化资讯
品牌优化资讯
爬行、抓取、索引、收录,指的都是什么?
爬行、抓取、索引、收录,指的都是什么?
发布时间:2021-03-15 13:53
  |  
阅读量:
字号:
A+ A- A
  SEO教程:爬行、抓取、索引、收录,指的都是什么?
  看SEO有关博客和论坛时能感觉到,很多SEO并没有了解爬行、抓取、索引、收录这些概念究竟指的是什么,区别在哪,noindex、nofollow、robots文件的功用又是什么。对这些概念没有精准了解,处理大型网站结构,决定什么页面需要被抓取,什么需要被索引,哪些页面需要制止抓取、索引等等情况时,就很难明白该怎样做。甚至就像抓取配额那篇帖子的很多留言说的,说到这些情况的处理时,根本看不懂在说什么。
  这么根本、重要,又比较简单混杂的SEO概念,我认为曾经在博客里写过了,看了留言,翻翻曾经帖子才知道,原来曾经没写过。SEO实战密码书里是有写的,但SEO每天一贴里并没有写过。今日补上。
  爬行是什么?
  爬行指的是查找引擎蜘蛛从已知页面上解分出链接指向的URL,然后沿着链接发现新页面(也便是链接指向的URL)的进程。当然,蜘蛛并不是发现新URL马上就爬过去抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛依照必定顺序从地址库中提取要抓取的URL。
  抓取是什么?
  抓取是查找引擎蜘蛛从待抓地址库中提取要抓的URL,拜访这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取便是像浏览器相同翻开这个页面,和用户浏览器拜访相同,也会在服务器原始日志中留下记录。
  索引是什么?
  索引指的是将一个URL的信息进行整理,存入数据库,也便是索引库,用户查找时,查找引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于查找的,所以被索引的URL是能够被用户查找到的,没有被索引的URL用户在查找成果中是看不到的。
  要留意的是,所谓“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它来历的信息,如外部链接、链接的锚文字等。有的时分,索引库中关于这个URL的的信息,根本没有从这个URL抓取来的内容,但查找引擎知道这个URL的存在,而且有一些其它信息。
  抓取和索引不是一回事。
  收录是什么?
  我个人觉得收录和索引没有区别。只不过收录是从查找用户角度看的,查找时能找到这个URL,便是这个URL被收录了。从查找引擎角度看,URL被收录了,也便是这个URL的信息在索引库中存在。英文并没有收录这个词,和索引证的是同一个词index。
  noindex的效果是什么?
  页面头信息中放上meta noindex标签是告知查找引擎不要索引这个URL,也便是用户查找时找不到这个URL的信息,这个URL不会回来在查找成果列表中。
  noindex不是告知查找引擎不要抓取这个URL,实际上,noindex要起效果,这个URL是必须先被抓取的,不然查找引擎怎样看到页面HTML代码中有noindex标签呢?
  robots文件的效果是什么?
  robots文件是告知查找引擎,某些URL不要抓取。留意,这里说的是不要抓取,没说不要索引。和noindex是正相反的。
  nofollow的效果是什么?
  给链接加上nofollow属性是告知查找引擎,不要沿着这个链接爬行,就当这个链接不存在。留意,nofollow只是告知蜘蛛不要爬这个链接,没有说不要抓取链接指向的URL,也没有说不要索引链接指向的URL,nofollow既没制止抓取,也没制止索引。
  概念说往后,指出几个SEO们经常弄不明白的情况:
  没有被抓取的页面是能够被索引的
  也便是说,蜘蛛没有拜访和抓取这个页面(比如被robots文件制止抓取),这个页面却有信息存在索引库中,用户查找时还能看到。
  比如,淘宝整个网站用robots文件制止百度蜘蛛抓取,但没有用noindex制止索引(如上面说的,制止抓取后,就没办法制止索引了,不抓取,就看不到noindex标签了),所以即使百度没有拜访和抓取淘宝页面,但淘宝很多页面是被百度索引的,用户能够搜到的:
  淘宝制止百度抓取,但没有制止索引
  百度从网上那么多链接知道淘宝主页的存在,经过链接的锚文字也知道这个页面标题大概是淘宝之类的,当然更知道百度口碑里的评价数。所以即使百度蜘蛛没有抓取淘宝主页,用户仍是能搜到,而且显示一些百度知道的信息。
  要想百度不能回来淘宝主页该怎样办呢?撤销robots文件的制止抓取,页面上用noindex制止索引。
  被抓取的页面是能够不被索引的
  最常见的便是上面说过的,页面头信息运用noindex制止索引,页面被抓取,读到noindex后,不被索引,不会在查找成果中回来。
  还有或许是因为页面内容是抄袭、转载、低质量的,查找引擎尽管抓取了页面,索引进程中检测出这些内容问题,被丢弃,没有被索引。所以页面没有被收录,通常要先查看原始日志,看看是否被抓取过,假如被抓取过,或许是内容质量问题,假如根本没被抓取,主张先看看网站结构是否有问题。
  加了nofollow的链接方针页面能够被抓取和索引
  前面说了,nofollow既不制止抓取,也不制止索引。nofollow的效果是告知蜘蛛不要跟着这个链接爬,就当这个链接不存在,但nofollow只对这个链接起效果,对别的链接没效果,这个链接加了nofollow,不意味着别的当地就没有正常的指向这个URL的链接,只要别的当地呈现了没加nofollow的链接,方针URL仍是会被发现、抓取(假定没被robotx文件制止)、索引(假定没加noindex)。
  上面这些概念和应用在SEO中是很重要的,假如还没看懂,我也不知道该怎样再解释了,只能主张再多读几遍。
北京闻传网络技术有限公司,专注于搜索引擎优化,网站关键词排名优化头条搜索优化,品牌舆情监测及优化!为客户提供品牌内容优化方案、软文发稿营销、品牌口碑传播、等优质服务!