搜索引擎工作原理

来源:http://info.hhczy.com 编辑:Kogee 2013-10-09 | 标签： SEO百科 |

搜索引擎工作的四个步骤

1.爬行和抓取

搜索引擎派出一个能够在网上发现新网页并抓文件的程序，这个程序通常称之为蜘蛛。搜索引擎从已知的数据库出发，就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎会跟踪网页中的链接，访问更多的网页，这个过程就叫爬行。这些新的网址会被存入数据库等待抓取。所以跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本的方法，所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样，抓取的文件存入数据库。

2.索引

蜘蛛抓取的页面文件分解、分析，并以巨大表格的形式存入数据库，这个过程既是索引(index)。在索引数据库中，网页文字内容，关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。

3.搜索词处理

用户在搜索引擎界面输入关键词，单击“搜索”按钮后，搜索引擎程序即对搜索词进行处理，如中文特有的分词处理，去除停止词，判断是否需要启动整合搜索，判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

4.排序

对搜索词处理后，搜索引擎程序便开始工作，从索引数据库中找出所有包含搜索词的网页，并且根据排名算法计算出哪些网页应该排在前面，然后按照一定格式返回到“搜索”页面。

搜索引擎数据结构

搜索引擎的核心数据结构为倒排文件(也称倒排索引)，倒排索引是指用记录的非主属性值(也叫副键)来查找记录而组织的文件叫倒排文件，即次索引。倒排文件中包括了所有副键值，并列出了与之有关的所有记录主键值，主要用于复杂查询。与传统的SQL查询不同，在搜索引擎收集完数据的预处理阶段，搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排文件”。倒排文件简单一点可以定义为“用文档的关键词作为索引，文档作为索引目标的一种结构(类似于普通书籍中，索引是关键词，书的页面是索引目标)。

返回资讯首页 >>

标签：SEO百科

更多电商最新动态，关注行行出状元资讯频道【info.hhczy.com】

人物观点

更多 >

卢捷：创新创业要考虑自身造血赚钱
卢捷，厦门创客猫网络科技有限公司创始人，热衷创新创业，是一位名副其实的有为创业青年，主要从事互联网相关行业，自双创热潮出现后，投身于为互联网活动、创新创业活动的主办方做线下活动的图文直播、现场采访、媒体报道等这样的一个现场媒体服务。
林超：平行进口车为汽车市场添活力
恒基瑞驰科技创始人，美国天马迅达快递副董事长。2007年赴美留学，进修工商管理硕士。2010年5月创立了美国迅达快递，致力于为海外华人和国内海淘用户提供优质的物流服务。2014年5月份联合创立了美国天马迅达快递。在全美30多个州开设了100多家加盟店，服务于全美华人，电商以及海淘客户。2016年开始投资创立“恒基瑞驰供应链管理平台”，全面服务于平行进口车的各个贸易商与经销商。