搜索引擎蜘蛛通过连接,访问到网页,抓取网页HTML代码,发送到数据库储存起来,等待下一步程序。常见的搜索引擎蜘蛛有:百度蜘蛛(Baiduspider+)谷歌蜘蛛(Googlebot),soso蜘蛛(Sosospider+),雅虎蜘蛛(Yahoo! Slurp),微软Bing蜘蛛(msnbot)搜狗蜘蛛(Sogou+web+robot+)。蜘蛛根据链接爬行网站有两种策略:一是深度优先,一是广度优先。
第二、 分析网页。
分析网页就是我们通常所说的预处理。这步程序蜘蛛会把抓取回来的HTML代码,进行文字提取、去停止词、消噪音、去重,然后对这些文字进行分词、索引等处理,以备排名程序使用。这些过程都是非常复杂的,我们只需要了解它们是怎么分词,怎么索引就行了。如果有兴趣进一步研究的话,可以在网上找一些搜索引擎原理的资料或者购买介绍搜索引擎原理的书看。
第三、 排名。
排名是搜索引擎程序的最后一步程序了。当搜索引擎把网页进行一系列的分析过后,就把数据传送到排名程序,当用户搜索某个关键词时候,排名程序就会调用经过分析网页,检索处理的数据库数据,对关键词进行匹配、计算相关性,然后生成排名页面反馈给用户。当然影响排名的因素还有网站的结构优化,内链优化,外链质量和数量等,包括地域性的因素。