百度蜘蛛[编辑]

百度是如何收录到那么多网页的呢？这个百度用以抓取互联网上数以亿计的网页的程序，就叫做Baiduspider - 百度蜘蛛。

百度蜘蛛，英文名是“baiduspider”是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站的网页。

百度搜索引擎是每周更新的，网页的重要性要视更新频率的不同，频率在几天到一个月之间，Baiduspider会重新访问和更新一个网页的。

它是一个程序，夜以继日得在互联网上找寻新的URL，接着抓取URL上的内容，返回到百度的网页暂存数据库。

百度用来抓取网页内容的程序，叫做Baiduspider，抓取其他内容的蜘蛛，则是新的名字：

产品名称对应user-agent

网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro

不少人会在自己的网站日志里看到这个蜘蛛Baiduspider-cpro，现在我们明白它是百度联盟蜘蛛，用以百度联盟程序匹配相应的广告。

常见问题

1.Baiduspider对一个网站服务器造成的访问压力如何？

答：Baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后，Baiduspider会暂停一会，以防止增大服务器的访问压力。所以在一般情况下，Baiduspider对您网站的服务器不会造成过大压力。

2.为什么Baiduspider不停的抓取我的网站？

答：对于您网站上新产生的或者持续更新的页面，Baiduspider会持续抓取。此外，您也可以检查网站访问日志中Baiduspider的访问是否正常，以防止有人恶意冒充Baiduspider来频繁抓取您的网站。如果您发现Baiduspider非正常抓取您的网站，请反馈至，并请尽量给出Baiduspider对贵站的访问日志，以便于我们跟踪处理。

3.我不想我的网站被Baiduspider访问，我该怎么做？

答：Baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止Baiduspider访问您的网站，或者禁止Baiduspider访问您网站上的部分文件。注意：禁止Baiduspider访问您的网站，将使您的网站上的网页，在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
ps:关于robots.txt的写作方法，请参看我们的介绍：robots.txt写作方法。

4.为什么我的网站已经加了robots.txt，还能在百度搜索出来？

答：因为搜索引擎索引数据库的更新需要时间。虽然Baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要二至四周才会清除。另外也请检查您的robots配置是否正确。

5.我希望我的网站内容被百度索引但不被保存快照，我该怎么做？

答：Baiduspider遵守互联网meta robots协议。您可以利用网页meta的设置，使百度显示只对该网页建索引，但并不在搜索结果中显示该网页的快照。
和robots的更新一样，因为搜索引擎索引数据库的更新需要时间，所以虽然您已经在网页中通过meta禁止了百度在搜索结果中显示该网页的快照，但百度搜索引擎数据库中如果已经建立了网页索引信息，可能需要二至四周才会在线上生效。

6.百度蜘蛛在robots.txt中的名字是什么？

答：“Baiduspider” 首字母B大写，其余为小写。

7.Baiduspider多长时间之后会重新抓取我的网页？

答：百度搜索引擎每周更新，网页视重要性有不同的更新率，频率在几天至一月之间，Baiduspider会重新访问和更新一个网页。

8.Baiduspider抓取造成的带宽堵塞？

答：Baiduspider的正常抓取并不会造成您网站的带宽堵塞，造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞，请尽快和我们联系。您可以将信息反馈至百度网页投诉中心，如果能够提供您网站该时段的访问日志将更加有利于我们的分析。

工作机制

1. 百度蜘蛛的构建的原理。

搜索引擎构建一个调度程序，来调度百度蜘蛛的工作，让百度蜘蛛去和服务器建立连接下载网页，计算的过程都是通过调度来计算的，百度蜘蛛只是负责下载网页，目前的搜索引擎普遍使用广布式多服务器多线程的百度蜘蛛来达到多线程的目的。

2. 百度蜘蛛的运行原理。

（1）通过百度蜘蛛下载回来的网页放到补充数据区，通过各种程序计算过后才放到检索区，才会形成稳定的排名，所以说只要下载回来的东西都可以通过指令找到，补充数据是不稳定的，有可能在各种计算的过程中给k掉，检索区的数据排名是相对比较稳定的，百度目前是缓存机制和补充数据相结合的，正在向补充数据转变，这也是目前百度收录困难的原因，也是很多站点今天给k了明天又放出来的原因。
（2）深度优先和广度优先，百度蜘蛛抓页面的时候从起始站点（即种子站点指的是一些门户站点）是广度优先抓取是为了抓取更多的网址，深度优先抓取的目的是为了抓去高质量的网页，这个策略是由调度来计算和分配的，百度蜘蛛只负责抓取，权重优先是指反向连接较多的页面的优先抓取，这也是调度的一种策略，一般情况下网页抓取抓到40%是正常范围，60%算很好，100%是不可能的，当然抓去的越多越好。

3. 百度蜘蛛的工作要素。

百度蜘蛛在从首页登陆后抓取首页后调度会计算其中所有的连接，返回给百度蜘蛛进行下一步的抓取连接列表，百度蜘蛛再进行下一步的抓取，网址地图的作用是为了给百度蜘蛛提供一个抓取的方向，来左右百度蜘蛛去抓取重要页面，如何让百度蜘蛛知道那个页面是重要页面？？可以通过连接的构建来达到这个目的，越多的页面指向该页，网址首页的指向，父页面的指向等等都能提高该页的权重，地图的另外一个作用是给百度蜘蛛提供更多的连接来达到抓去更多页面的目的，地图其实就是一个连接的列表提供给百度蜘蛛，来计算你的目录结构，找到通过站内连接来构建的重要页面。

4. 百度蜘蛛原理的应用。

补充数据到主检索区的转变：在不改变板块结构的情况下，增加相关连接来提高网页质量，通过增加其他页面对该页的反向连接来提高权重，通过外部连接增加权重。如果改变了板块结构将导致seo的从新计算，所以一定不能改变板块结构的情况下来操作，增加连接要注意一个连接的质量和反向连接的数量的关系，短时间内增加大量的反向连接将导致k站，连接的相关性越高，对排名越有利。

百度蜘蛛IIS返回状态码大全解析

2xx 成功

200 正常;请求已完成。
201 正常;紧接 POST 命令。
202 正常;已接受用于处理，但处理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;无响应 — 已接收请求，但不存在要回送的信息。

3xx 重定向

301 已移动 — 请求的数据具有新的位置且更改是永久的。
302 已找到 — 请求的数据临时具有不同 URI。
303 请参阅其它 — 可在另一 URI 下找到对请求的响应，且应使用 GET 方法检索此响应。
304 未修改 — 未按预期修改文档。
305 使用代理 — 必须通过位置字段中提供的代理来访问请求的资源。
306 未使用 — 不再使用;保留此代码以便将来使用。

4xx 客户机中出现的错误

400 错误请求 — 请求中有语法问题，或不能满足请求。
401 未授权 — 未授权客户机访问数据。
402 需要付款 — 表示计费系统已有效。
403 禁止 — 即使有授权也不需要访问。
404 找不到 — 服务器找不到给定的资源;文档不存在。
407 代理认证请求 — 客户机首先必须使用代理认证自身。
410 请求的网页不存在(永久);
415 介质类型不受支持 — 服务器拒绝服务请求，因为不支持请求实体的格式。

5xx 服务器中出现的错误

500 内部错误 — 因为意外情况，服务器不能完成请求。
501 未执行 — 服务器不支持请求的工具。
502 错误网关 — 服务器接收到来自上游服务器的无效响应。
503 无法获得服务 — 由于临时过载或维护，服务器无法处理请求。

参考资料：《seo十万个为什么》

扩展阅读： http://abc.wm23.com/huangjunyan