浅谈中文搜索引擎的分词原理 |
发布时间: 2012/9/17 14:51:20 |
了解百度分词技术,对于我们标题的写法是很重要的。我们知道,百度中文分词算法是指搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法。要在单位时间内处理千万亿级的页面数据量,因此搜索引擎拥有一个中文词库。比如百度现在大约有9万个中文词,那么搜索引擎就可以对千亿级的页面进行分析,按照中文词库进行了分类。中文分词基于以下三个原理:
一、 完全匹配。比如搜索“图书馆”。 二、 高度匹配。比如搜索“图书馆标准”。三、 模糊匹配。比如搜索“中国图书馆标准”。 另外,分词原理:一些专有词是不可分割的,比如杰出人物(如:周恩来),明星(如:刘德华),检索量大的词(如:买票难)。 这些只是百度中文分词原理的一部分。以上只是对百度分词技术看法,百度算法是不可能透露出来,所以以上并不一定是对的。 本文出自:亿恩科技【www.enkj.com】 |