互联网工具及软件

爬虫程序

此为词条历史版本页面，由卢仔于2011/6/10 9:43:31贡献。查看最新版本

一什么是搜索引擎爬虫程序

网络爬虫（又被称为网页蜘蛛，网络机器人，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。

这些处理被称为网络抓取或者蜘蛛爬行。很多站点，尤其是搜索引擎，都使用爬虫提供最新的数据，它主要用于提供它访问过页面的一个副本，然后，搜索引擎就可以对得到的页面进行索引，以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务，例如检查链接，确认html代码；也可以用来抓取网页上某种特定类型信息，例如抓取电子邮件地址（通常用于垃圾邮件）。

一个网络蜘蛛就是一种机器人，或者软件代理。大体上，它从一组要访问的URL链接开始，可以称这些URL为种子。爬虫访问这些链接，它辨认出这些页面的所有超链接，然后添加到这个URL列表，可以称作检索前沿。这些URL按照一定的策略反复访问。

二爬虫程序的种类以及分辨

搜索引擎派出他们的爬虫程序去访问、索引网站内容，但是由于搜索引擎派爬虫程序来访会在一定程度上影响网站性能。在你的服务器日志文件中，可见每次访问的路径和相应的 IP 地址，如果是爬虫程序来访，则user-agent 会显示 Googlebot 或MSNBot 等搜索引擎爬虫程序名称，每个搜索引擎都有自己的user-agent，以下分别列出国内主要的爬虫程序。

参考资料：

扩展阅读：