百度搜索引擎工作原理浅析 您所在的位置:网站首页 列举百度的主要功能 百度搜索引擎工作原理浅析

百度搜索引擎工作原理浅析

2024-05-29 02:47| 来源: 网络整理| 查看: 265

之所以要写百度搜索引擎优化的相关内容主要是那天听了某位同学的话比较有感触,她说的第一句是“蚊子再小也是块肉”,第二句话是“它山之石可以攻玉”!Jack老师的这个教程网站一开始的初衷是讲外贸建站和谷歌SEO优化,但考虑到国内的同学们的产品供应链上下游都集中在国内,所以就想到了来讲一讲中文内容社区最大的搜索引擎—百度的相关SEO优化内容。

虽然我也一直在不断吐槽百度的各种糟点,但不可否认的是百度是当下而且在往后相当长的一段时间内都会担当起中文内容搜索领英的龙头老大,这不仅仅是它本身因素决定的,更多的是整个搜索生态环境和特定的高层战略意识形态所决定的!

有时候吐槽百度,可能并不是因为它不够好,而是用过谷歌等更好的搜索引擎之后,对比之下才发现,百度搜索引擎要走的路还很长。这就好比是你去大城市尝过大厨的手艺之后会回家说母亲烧的家常菜不香,但事实上家常菜才是最养胃的!言归正传,我们来讲百度搜索引擎的基本原理和工作流程。

一.百度搜索引擎工作原理

我们首先引用百度对其自身工作原理的官方描述:互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做 “spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。

上面这段话,简单的概括就是说,百度派出了蜘蛛通过超链接的形式抓取新内容!这句话看起来很简单,但是背后却包含了包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统等多个环境并发交互运作的一个整体过程。

也就是说百度本身并不生产内容而是做内容的搬运工(咦,怎么和农夫山泉大自然的搬运工套路这么相似?!类似的还有马云的淘宝,王兴的美团…有钱人的脑子思考模式都差不多的吗?) 需要注意的是互联网上的很多信息都是不太健康的,所以百度搜索引擎在抓取和处理这些内容的时候就会开始引入一系列处理机制,接下来我们就看看有哪些处理机制会影响百度蜘蛛对内容的抓取

1.内容抓取过程不能影响内容本身我们知道不管是人还是搜索引擎的蜘蛛在访问某一个页面的时候都需要消耗一定的该网站带宽,这里你可以将访问该网站的路径理解成一条公路,小网站一般是双车道,正常情况下车辆通行无阻,如果蜘蛛频繁的访问该网站,等于说路上的车变多了,那就会造成道路堵塞进而影响网站的正常访问。当然了你也可以在自己网站的robots.txt文件中写入相应的代码,以控制搜索引擎的抓取频次间隔。

2.对内容抓取的结果反馈代码相信很多同学对404这个数字不会太陌生,这个404就是表示该抓取的内容页面url下没有找到任何信息,也就是说抓取蜘蛛吃了个闭门羹,这自然会引起蜘蛛的不爽,所以会在索引库中删除该页面的url。甚至可能在短期内再次发现这条url也不一定会去爬取内容。(这和追女孩子差不多,约会的时候如果男孩子敢飞鸽子就要有做好单身的打算,这是多么痛的领悟!!!)

除了404之外,我们可能还遇到过301,403,503等错误代码,除了200是ok的,其他都是多多少少有问题,这些代码反



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有