
第一,抓取。
互联网上的网站数量非常多,一个新站上线,一个老站更新内容,这些都要搜索引擎的蜘蛛去抓取,大量的蜘蛛程序会抓取不同的网站,将这些抓取的内容然后纳入到数据库中。我们可以通过提交搜索引擎吸引抓取,不过为了更好的被抓取,我们需要避免一些不好的因素。比如:
1、路径不宜过长,过长不利于抓取。
2、不要使用中文路径,使用中文路径蜘蛛需要进行转码,这对网站优化不利。
3、不能屏蔽一些要抓取的内容,这个在设置robots协议时尽量要仔细,如果误设置禁止抓取对网站的内容抓取是非常不好的。
第二,过滤。
当蜘蛛抓取到很多内容的时候,会对这些内容进行过滤筛选,将一些没有意义的内容剔除掉,有价值的内容才会放出来。一般蜘蛛会过江到网站的文字,图片,视频及链接,一些访问速度不好的站点也会被过滤掉,此外,比较重视权重高,信用度比较好的页面,相似的页面内容也会被删除。
第三,收录。
将这些不好的内容都删除之后,剩下有价值的内容百度会放到互联网上,也就是我们所说的收录,这样用户就可以通过相关内容进行搜索。
第四,排名。
搜索引擎排名是一个非常复杂的过程,它会综合考虑很多内容,将这些内容进行综合评比,然后让根据一定的原则展示出来。在这个排名过程中,一般会根据基础优化,用户体验或者投票进行。