搜索引擎工作原理[编辑]

搜索引擎按其工作原理上来区分，分为全文检索搜索引擎，分类目录搜索引擎和元搜索引擎三种类型。搜索引擎的原理基本分做三步：

第一步：从互联网上搜集信息
网络蜘蛛Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

第二步：整理信息、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息，根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

第三步：在索引数据库中搜索排序、接受查询
当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。

最后，由页面生成系统将搜索结果的链接地址、页面内容摘要等内容，组织起来返回给用户。网络蜘蛛(spider）一般按照各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率，要定期重新访问所有网页，更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会以更新的形态，反映到用户搜索查询的结果中。

搜索引擎三定律
　　第一定律相关性定律
　　当用户输入检索词时，搜索引擎去找那些检索词在文章（网页）中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面) 。早期的搜索引擎结果排序都是基于本文的第一定律的，如Infoseek，Excite，Lycos等，它们基本上是沿用了网络时代之前学术界的研究成果，工业界的主要精力放在处理大访问量和大数据量上，对相关性排序没有突破。
　　第二定律人气质量定律
　　科学引文索引的机制，说白了就是谁的论文被引用次数多，谁就被认为是权威，论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多，那个网页就被认为是质量高，人气旺。在加上相应的链接文字分析，就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律：人气质量定律。根据这一定律，搜索结果的相关性排序，并不完全依赖于词频统计，而是更多地依赖于超链分析。
　　第三定律自信心定律
　　GoTo最早实践了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM来收费的，而CPM是从传统广告业借鉴过来的，没有考虑网络媒体即时性，交互性，易竞价的特点，而竞价排名，点击收费则是为网站拥有者直接提供销售线索，而不是传统意义上的广告宣传。自信心定律一改过去搜索引擎靠CPM收钱的尴尬局面，开创了真正属于互联网的收费模式。
　　在中国，百度一直致力于推动搜索引擎市场的培植和发展，现在，我们联合了各大门户网站的搜索引擎，一起通过百度的竞价排名系统来实践搜索引擎的第三定律，为数十万网站的拥有者提供一个展示自信心，吸引潜在客户，发现销售线索的平台。

参考资料：欧美风格女装毛衣营销博客百度百科网络词典

扩展阅读：搜索引擎三定律互联网上搜集信息