浅述搜索引擎的分词算法,了解全文检索技术

zhushican | seo教程 | 2015年5月3日

浅述搜索引擎的分词算法,了解全文检索技术
 
21世纪互联网的快速发展让人们生活越来越便利,当日益剧增的海量信息让我们眼花缭乱时,搜索引擎的出现可以让我们快速找到自己想要的答案。因此多了解搜索引擎的分词算法,可以让网站在搜索引擎上获得更好的展现机会。在讲解中文分词技术之前,先来了解下全文检索技术。
  全文检索技术

  全文检索是指索引程序扫描文章中的每个词并建立对应索引,记录该词出现的位置和次数。当通过搜索引擎查询时,检索程序就在记录的索引进行查找并返回给用户。全文检索又分为基于字的全文索引和基于词的全文索引。基于字的全文索引会对内容中的每个字建立索引并记录,此方法查全率高,但查准率低,特别是对于中文,有时搜索马克,会列出马克思的结果。基于词的全文索引是把一个词语作为一个单位进行索引记录,并能处理同义词。搜索引擎有自己的词库,当用户搜索时,搜索引擎会从词库中抽取关键词作为索引项,这样可以大大提高检索的准确率。

[阅读全文]
回顶部