始创于2000年 股票代码:831685
咨询热线:0371-60135900 注册有礼 登录
  • 挂牌上市企业
  • 60秒人工响应
  • 99.99%连通率
  • 7*24h人工
  • 故障100倍补偿
您的位置: 网站首页 > 帮助中心>文章内容

浅谈百度搜索引擎的中文分词技术

发布时间:  2012/9/17 11:47:41
本篇文章浅析一下百度的中文分词技术,有不足之处还望各位有心人能指出,当然,也希望可以帮助站长们更深层的理解搜索引擎分词技术,做好自己的网站,获得更好的排名。
  一、搜索引擎中文分词技术
  搜索引擎中文分词技术简单来说,就是把中文的汉字序列切分成有意义的词组。
  二、搜索引擎分词技术简述
  1.基于字符串匹配的分词方法
  按照一定的策略将待分析的汉字串与一个极其词库中的词条进行匹配。
  常用分词的方法:
  正向最大匹配法(由左到右的方向)
  分词测试例子:我/有意/见/分歧
  反向最大匹配法(由右到左的方向)
  分词测试例子:我/有/意见/分歧
  据大量测试数据统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反
  向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。
  2.基于统计的分词方法
  相邻的字同时出现的次数越多,就越有可能构成一个词。用于系统自动识别新词。
  3.基于理解的分词方法
  在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧异现象。
  三、百度搜索引擎分词技术分析
  1.最大分词词长
  分词技术归纳:少于等于3个中文字不切割
  分词技术归纳:对于大于等于4个汉字的词将被分词
  2.分词匹配算法
  分词测试查询:查询:“工地方向导”
  正向最大匹配:工地/方向/导
  反响最大匹配:工/地方/向导
  百度采用 正向最大匹配算法
  分词技术归纳:首先用专用词典采用最大正向匹配分词,切出部分结果;剩余没有切分交给普通词典,同样采取正向最大匹配分词。
  关于搜索引擎分词技术,这次就浅析到这。但是搜索引擎的分词技术远远不止这些,分词中的一些难题,如歧义识别、新词识别、拼写检查错误提示、拼音提示功能、相关搜索提示等深一些请关注我们北京seo的网站,随时会有新的知识让大家吸收。
   
本文出自:亿恩科技【www.enkj.com】

服务器租用/服务器托管中国五强!虚拟主机域名注册顶级提供商!15年品质保障!--亿恩科技[ENKJ.COM]

  • 您可能在找
  • 亿恩北京公司:
  • 经营性ICP/ISP证:京B2-20150015
  • 亿恩郑州公司:
  • 经营性ICP/ISP/IDC证:豫B1.B2-20060070
  • 亿恩南昌公司:
  • 经营性ICP/ISP证:赣B2-20080012
  • 服务器/云主机 24小时售后服务电话:0371-60135900
  • 虚拟主机/智能建站 24小时售后服务电话:0371-60135900
  • 专注服务器托管17年
    扫扫关注-微信公众号
    0371-60135900
    Copyright© 1999-2019 ENKJ All Rights Reserved 亿恩科技 版权所有  地址:郑州市高新区翠竹街1号总部企业基地亿恩大厦  法律顾问:河南亚太人律师事务所郝建锋、杜慧月律师   京公网安备41019702002023号
      0
     
     
     
     

    0371-60135900
    7*24小时客服服务热线