1. 紫书SEO技术博客首页
  2. SEO基础

「晋城SEO」SEO的工作原理以及搜索引擎工作流程详细解读

上篇文章我们介绍了一下什么是SEO以及SEO是做什么的,相信大家已经对SEO有了初步的认识,但是大多数人对SEO还是不明白,那么SEO到底怎么做呢?在了解SEO怎么做之前,我们就要了解一下SEO的工作原理,正所谓“知彼知己,百战不殆”,只有我们了解SEO以后,才能做出更好的选择!下面就为大家分析一下搜索引擎的工作流程。

本文参考依据:百度搜索资源平台->搜索学院->百度搜索引擎工作原理

很多人在学习SEO的时候到处选择各种资料,各种教程,或者网上乱找师傅,都不如参考百度站长平台,所有的搜索引擎规则都是在资源平台推出的,也是最有说服力的, 而且网上所有的SEO教程几乎都是参考“百度搜索资源平台”的,所以大家学习的时候,一定要以正规平台为准!

搜索引擎抓取工具-Spider是什么意思

自从互联网发展以来,网上的各种信息已经不是简单的数字可以描述的,那么对于搜索引擎来说,不可能把所有的信息都展示出来,而且这么多的信息,有好有坏,对于搜索引擎来说就是一个非常重要的工作,为了解决这一难题,搜索引擎就推出了一个抓取工具,它的作用就是在整个互联网中对网络信息进行搜集,检测,分析,更新,展示,它就想一直蜘蛛一样,在整个互联网上进行爬取,我们就把这个抓取工具叫做搜索引擎蜘蛛,也叫作spider。

常见的spider有哪些

搜索引擎蜘蛛Spider类型

每个搜索引擎都有自己的抓取工具,比如我们常见的搜索引擎,百度搜索,360搜索,搜狗搜索,谷歌搜索等等,他们对应的抓取工具就是baiduspider,360Spider,Sogou News Spider,Googlebot,这是最为常见的,另外还有搜搜,必应,MSN蜘蛛等等,这里就不为大家详细的介绍了,了解一下就行。

搜索引擎的工作原理-Spider抓取规则解析

搜索引擎的工作原理大概分为四个步骤,1、抓取建库;2、检索排序;3、外部投票;4、结果展现;下面我们就对这四大步骤进行逐步解析。

搜索引擎工作原理一:抓取建库

我们目前最为常用的就是百度搜索了,所以这里我们以baiduspider为主,对于搜索引擎来说,网络上的信息是巨大的,网络环境也是非常复杂的,所以搜索引擎为了能够抓取更多有价值的信息,就会针对这些网站设计出一种特殊的策略,那么我们先来说一下搜索引擎抓取策略。

1、对搜索引擎抓取的友好性

对于搜索引擎来说,需要抓取大量的资源,对于一个网站来说,服务器是非常重要的,服务器的带宽决定着网站的打开速度,当spider来抓取我们的网站时,就相当于访问量,如果抓取频率过高,那么是需要耗费大量资源的,搜索引擎有一个默认的抓取频率,当我们发现自己的网站耗费资源很大时,首先判断不是被攻击了,其次看网站日志,确认是不是spider抓取频率过高,如果是的话,那么就需要及时向搜索引擎反馈,为了解决这个难题,搜索引擎有一个站长平台,在这个平台工具里有个抓取频率,我们就能通过这个工具手动调整抓取频率。

需要注意的是,抓取频率高了对服务器资源会造成很大压力,太低了,可能会导致网站迟迟没有收录。所以一定要合理调整,根据自己的实际情况来调整!在我们调整以后,搜索引擎就会根据我们的要求来对网站抓取,这就增加了站长和搜索引擎的互动,体现出网站对搜索引擎的友好性!

2、常见的搜索引擎抓取代码返回示例

搜索引擎在抓取我们网站时会有一个返回码,这里呢就为大家简单介绍一下比较常见的返回码

【1】200,就是代表网站能够正常抓取

【2】404的意思“NOT FOUND”,代表这个网页不存在,已经失效,被删除或者被移动,下次spider就不会在抓取这个网页了

【3】301的意思“Moved Permanently”,也就是我们常说的301重定向,代表这个网页被转移到了其他页面,或者说跳转到其他域名了,最为常见的就是网站域名带www和不带www之间的跳转,还有https,网站改版等情况

【4】503的意思“Service Unavailable”,一个网站本来是正常的,但是突然打不开了,也能是因为备案到期,或者服务器关闭,网站资源耗尽等情况,那么就会返回503,那么spider就会短时间内对这个链接进行抓取,如果能够及时恢复,那么就一切正常,如果不能及时恢复,那么搜索引擎就会在索引库中删除这个链接。

3、搜索引擎抓取原则

搜索引擎抓取优先级,对于搜索引擎来说,网络上的信息巨大,想要全部一次性抓取是不可能的,所以一定会有优先级,这就是我们经常听到的广度抓取,深度抓取,每个抓取规则都是有优势有劣势的,所以在实际情况中往往都是相互结合使用的。

什么是深度抓取呢?就是spider会顺着一条连接一直爬下去,直到没有路了,才返回重新爬两一条连接。什么是广度抓取呢?就是spider会优先爬取相同等级的目录,同等级连接爬取完成后才会继续爬取下一级链接。

4、搜索引擎建库的原则

搜索引擎通过以上方法对网页进行抓取后,不可能把所有内容都收录进去,一定会对网页的质量进行判断,把质量好的内容建立索引,也就是我们所说的“建库”,大家应该都知道,搜索库也分等级的,有比较重要的,也有比较普通的,还有一些低级索引库,对于搜索引擎来说,目前只需要大概60%的资源,就能满足用户的需求,剩下的内容就会不予展示,这也是很多人说自己的网站收录很高,但是一点排名和流量都没有的原因。那么那些内容会进入优质索引库呢?

【1】有时效性并且价值很高的页面会进入优质索引库,两者缺一不可

【2】优质的专题页面或者聚合页面会进入优质索引库,专题页和聚合页集合了大量的优质内容,而且资源比较集中,能够为用户提供更加全面的而且丰富的内容,所以效果是非常好的。

【3】高价值的原创内容会进入优质索引库,搜索引擎一直在鼓励原创,为此也出了很多鼓励政策,保证原创是非常重要的

【4】重要的个人页面会进入优质索引库,对于比较重要的人物,搜索引擎还是会特别对待的,比如篮球明星乔丹,在平台开了个账号,虽然不会怎么发内容,但是对于搜索引擎来说还是这个页面还是非常重要的。

搜索引擎工作原理二:检索排序

通过第一步的抓取建库,搜索引擎已经收录了大量的优质内容,但是这个数据仍热巨大,在搜索页面展示的地方,只有那么几个,用户在搜索的时候,也是为了找到自己想要的答案,那么搜索引擎为了满足用户,那么就需要对这些页面进行检索,然后对这些页面进行排序,那么搜索引擎是怎么做的呢?

首先,搜索引擎会通过query切词后,分析出用户所需要的关键词都在哪些页面,然后通过自己的索引库对这些页面进行检索,简单理解就是对页面进行比较、求交(什么是求交呢?下面会介绍到),这就是搜索引擎常用的一种“倒排索引”的方法。下面就为大家着重分析一下“倒排索引的工作流程”。

倒排索引的基本流程:网站->spider->线下储存库->页面分析->切词分词->建立倒排索引

1、页面分析:页面是有很多HTML标签组成的,对于页面来说,比较重要的就是title、keywords、content、link等等

2、切词分词:这个过程包含了同义词转换,不同词组的组合等等

3、建立倒排索引:形成{termàdoc},这是实现毫秒级检索的重要环节。其中最为重要的一步就是“入库写库”。

入库写库的流程:Query串切词分词->查询term文档集合->求交->各种过滤->最终排序

【1】以“饮水机什么牌子好”为例,

饮水 0x123abc

机 0x13445d

什么 0x234d

牌子 0x145cf

好 0x354df

【2】查询每个term文档集合,也就是找出待选集合。

0x123abc 1 2 3 4 7 9…..

0x13445d 2 5 8 9 10 11……

……

……

【3】求交,也可以叫做遍历,比如1和3的组合符合这个需求,或者说2和9的组合符合需求,那么就会对这些词组进行匹配,这就和我们数学中的乘积方法一样,相合交合!

【4】各种过滤,搜索引擎在匹配众多词组后,对这些词组进行过滤,过滤掉一些垃圾链接,死链接,低俗链接等等

【5】最终排序,将能够满足用户需求的页面排在最前位置,能够满足需求的页面有很多,当热也是有个评判标准的,比如网站的整体质量,页面评价,匹配程度,时效性等等!

搜索引擎工作原理三:外部投票

很多人不清楚什么是“外部投票”,但是换个说法,“外链”,相信很多人就知道了,其实意思是一样的,那么为什么叫做外部投票呢?首先我们理解一下外链的意思,就是在别人的网站留下我们自己网站的链接,如果spider爬取别人网站的时候,那么spider就会顺着我们留下的链接来到我们的网站,这就相当于一次投票,简单来说,就是别人从其他地方来我们网站一次,就是给与一次投票,投票越多,代表网站越受欢迎,说明网站的质量也越好!

在SEO行业中流传着这样一句话“内容为王超链为皇”,这句话的意思就是通过一些超链接,包含内链和外链,来判断网站的相关性,也是搜索引擎曾经用来判断网页质量的重要依据,但是到了现在,很多人已经知道这个方法,于是为了避免被滥用,于是外链的作用被搜索引擎已经降低了不少,搜索引擎也推出了很多多种算法,来针对超链接的建设。总之,不止是对于百度,对于谷歌,也是一样的,超链接的作用已经越来越小了,那么现在的超链接有什么作用呢?

1、吸引spider,现在对于一个新网站来说,搜索引擎已经给与了很多提交入口,但是呢仍然有很多不足的地方,经常有人说网站很长时间都没有蜘蛛爬取,也没有收录,为此,超链接还是吸引蜘蛛的重要入口,在别人的站点留下我们的链接,能够让蜘蛛快速的爬取我们网站。

2、传递相关信息,搜索引擎抓取页面的时候,会对网站的基本信息抓取,比较重要的网站TDK,H标签等等,其实锚文本也是非常重要的,搜索引擎会通过锚文本来判断出这个链接是否和页面相关,有没有用户点击,如果有的话,说明相关性还不错,如果没有,就会被认为是垃圾链接,对我们网站反而不好。

3、提升页面排名,搜索引擎虽然降低了超链接的作用,但是并没有说超链接就没有任何作用了,如果能够合理的正确的设置超链接,那么对于搜索引擎来说还是非常受欢迎的。

4、软文分享,获取品牌口碑,大家应该都知道投稿,很多人会在一些知名的博客或者平台,有的就会留下外链,有的是不允许外链的,但是可以留下自己的品牌,要知道大平台的流量是很大的,我们的品牌曝光度也是非常高的!

搜索引擎工作原理四:结果展现

搜索引擎经历过以上三个步骤以后,就需要将结果展现出来了,那么怎么让展现出来的食结果获得更多的点击呢?这也是许多站长最为担心也是考虑最对的一件事。

目前网站的展现形式大概有两种,一种是结构化展现,形式比较多样化,目前大概有80%的搜索结果都可以符合要求;另一种就是最原始的展现形式,就是以文章摘要的形式展现出来,也是最为常见的,比如一个标题,一段摘要,在加上部分链接。

【结构化展现数据】帮助站点获得更多点击

1、通用的问答形式:适合问答类型的网站,展现样式如下:

问答形式1 问答形式2 问答形式3

2、在线文档的形式:常见的百度文库,有道文库,展现样式如下:

文库形式

3、下载网站的形式:常见的软件下载,资料下载,展现样式如下:

下载形式

4、有时效性的形式:常见的比如2019年高考,2008年奥运会等等,展现样式如下:

时效性

5、有原创标记的网站:有原创标记的网站审核是非常严格的,相对来说网站质量也是非常高的,所以抓取和展现也是有有待的,展现样式如下:

原创标记2 原创标记1

6、有配图的网站:除了站点的logo还有文章配图,能够扩大展现面积,方便用户了解,一个好的配图能够吸引用户的点击,展现样式如下:

搜索配图

关于搜索引擎的工作原理以及工作流程,就为大家简单介绍到这里,其中还有很多介绍不够详细,这里只是为大家介绍了比较重要的内容,想要了解更多信息可以自行搜索。

原创文章,作者:Ralap,如若转载,请注明出处:https://www.aipinyue.net/jichu/17.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

15811163279

在线咨询:点击这里给我发消息

邮件:1608196816@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息