Hi,are you ready?

准备好开始了吗?
那就与我们取得联系吧

有一个品牌项目想和我们谈谈吗?您可以填写右边的表格,让我们了解您的项目需求,这是一个良好的开始,我们将会尽快与你取得联系。当然也欢迎您给我们写信或是打电话,让我们听到你的声音!

厦门广川网络有限公司

地 址:厦门市思明区嘉联街道新景中心

电 话:0592-5720538

E-mail:4576980043@qq.com

填写您的项目信息

搜索引擎(百度)的工作原理:第一爬行和抓取

作者:佚名 时间:2020-03-15

爬行和抓取:通过搜索引擎蜘蛛跟踪链接和访问页面,抓取内容,存入数据库。预处理:搜索引擎抓取的数据,会进行文字提取,中文分词,索引,倒排索引,方便日后排名程序调用。排名:用户输入查询关键以后,排名程序会调用索引库数据,按相关性生成搜索结果页面。1.1蜘蛛爬行和抓取是搜索引擎的第一步,收集数据的过程。搜索引擎是爬行和访问页面的自动程序收集数据,这种程序也叫蜘蛛或者机器人。就好的司令部放出去的收集情报的情报员一样。搜索引擎蜘蛛访问网站是和普通用户基本是一致的,蜘蛛程序访问页面以后,服务器会返回HTML代码,蜘蛛程序会把代码,出入原始页面数据库,搜索引擎会同时使用很多蜘蛛程序提高抓取数据的效率。情报员多了,自然信息收集的就会更多,工作效率也就更高了。蜘蛛访问网站时,会先访问网站的robots.txt文件,如果robots.txt文件里头有止访问的文件或者目录,蜘蛛就不会抓取。其实就是入乡随俗好,我这里不让吃猪肉,你虽然是干部,也好遵守,就是这个意思。搜索引擎蜘蛛也是有自己的用户代理名称的,就好像警察的工作证一样,执行公务的时候都要先把证件拿出来,蜘蛛也是一样的,站长可以通过日志文件看到蜘蛛的用户代理,从而识别出到底是什么搜索引擎的蜘蛛。比如:百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.html)360蜘蛛:Mozilla5.0(Windows;U;Windows NT 5.1;zh-CN;)Firefox/1.5.0.11;360Spider谷歌蜘蛛:Mozilla5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)谷歌移动:Mozilla5.0(iPhone;CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26(KHTML,like Gecko)Version/6.0 Mobile/10A5376e Safari/8536.25(compatible;Googlebot/2.1;+http://www.google.com/bot.html)搜狗蜘蛛:Sogou+web+robot+(+http:www.sogou.com/docs/help/webmasters.html#07)1.2跟踪链接为了爬取更多的页面蜘蛛都是靠跟踪网页的的链接爬取的,从一个页面到另一个页面,蜘蛛从任何一个页面出发都能爬取到网上所有的页面,不过,网站的机构复杂,信息太多,所有蜘蛛爬行也是有一定策略的,一般是2中深度优先和广度优先。

从理论上来说,只要给蜘蛛足够的时间,就能爬完所有网络内容。其实在实际工作过程中,带宽和时间都不是无限的,也不可能爬完所有的页面。最大的搜索引擎也只能爬取和收录小部分内容。

由此可见,虽然蜘蛛能爬行和抓取页面,但实际上还有很多页面蜘蛛是没有爬到的位置,所以我们就要想办法去吸引蜘蛛让蜘蛛来我这里爬取和抓取页面。既然不能抓取所有页面,肯定是要让蜘蛛抓取重要的页面。哪些页面比较重要?有几个方面的影响因素。

网站和页面权重。一般质量高,资格老的网站被认为是权重比较高,所以这种网站一般搜索的页面会更多,蜘蛛的爬行深度也会比较高。

更新速度。一般每次蜘蛛爬行完了会把页面保存起来,如果第二次来的时候页面完全没有变化,就说明内页没有更新,多次爬取对页面更新的速度有了了解,蜘蛛就不会频繁的抓取这个网站;相反,如果每次抓取都有新的内容,蜘蛛就会频繁的抓取这个网站的内容,从而,这个网站的新内容也会更快的被蜘蛛跟踪。

导入链接。无论是外部链接和是内容链接,如果想要蜘蛛抓取就必须要有链接导出,不然蜘蛛都不没有机会知道这个页面的存在。高质量的导入链接也会是页面的上的导出链接的爬行深度增加。【导入链接:其他网站链接到我站;导出链接:我链接到其他人的网站,单向的。】

与首页的点击距离。一般网站的首页是权重最高的,也是蜘蛛访问最频繁的。大部分外部链接指向的都是首页。所以距离首页越近的页面,权重也会更好,被蜘蛛爬行的几率也会越大。

URL结构。页面权重一般是收录以后进行迭代计算才是到的,那么搜索引擎蜘蛛在抓取前怎么知道这个页面的权重呢?其实蜘蛛会进行预判,除了链接、与首页距离、历史数据等因素以外,短的,层次浅的URL可能会被会被直管的认为是是权重比较高的网站。

为了避免重复爬行和抓取地址,搜索引擎会建立一个地址库,记住已经被发现和没有抓取的网址,以及已经抓取的网址,蜘蛛发现链接后,并不是马上访问,而是出入地址库中,然后统一抓取。

地址库的URL有几个来源:自己录入的种子网站,蜘蛛抓取页面中的URL(会先和库里的数据比对,没有的会保存。),站长提交的网页地址,站长通过XML网站地图站长平台提交的链接。

一般站长提交上来的网址,会先存入地址库,能否被收录要看网页内容的重要性,搜索引擎的大部分内容来与蜘蛛爬取,提交的页面微乎其微,搜索引擎更喜欢自己爬取内容。

搜索引擎蜘蛛抓取的数据通统一放到原始数据库,与页面数据和用户浏览的搜索引擎完全一样,每一个URL都会有一个自己的编号。

检测和删除重复数据一般是在预处理过程中进行的,但是蜘蛛在爬行过程也会检测数据的的重复情况,如果遇到权重低的网站出现大量转载和抄袭的文章,蜘蛛就会不在继续爬行,这也是为什么很多站长看日志蜘蛛来过,但是网页基本不收录的原因。

预处理和排名会在下篇文章中写到,以上文章都是从书中所学到的SEO知识,如有雷同尽请见谅。

返回列表

RELATED CASE

相关案例

公司新闻

网站建设中,导航结构要如何优化?

导航应该怎么布局?是怎样的结构?我想...

公司新闻

网站是如何提交的?什么是备案程序?

该网站是如何提交的?什么是备案程序?...

公司新闻

企业建立网站的四大原则

企业建立网站的四大原则企业网站设计最...

公司新闻

营销型网站建设规划需要注意哪些

营销型的网站不仅需要注重视觉设计和网...

公司新闻

网站建设之网站打开速度的重要性

网站建设公司在设计网站的时候,首先会...

Are you interested in ?

感兴趣吗?

有关我们服务的更多信息,请联系

0592-5720538

与我们合作

与我们合作,您将会得到更成熟的品牌建设服务。我们以客户至上,同时也相互挑战,力求呈现最好的品牌建设成果。

品牌咨询热线:

0592-5720538

填写您的项目信息

TOP

4576980043

0592-5720538