您好!欢迎来到 惠建站

新闻资讯NEWS CENTER
常见问题您现在所在位置:首页 > 常见问题 > 常见问题
搜索引擎中文分词技术的分类有哪些
2018-04-02

 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于字标注的分词方法。

第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:正向最大匹配法、逆向最大匹配法、最小匹配方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理(比如未登录词)。

第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。

第三类基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位),假如规定每个字最多只有四个构词位置:即B(词首)M (词中)E(词尾)S(单独成词),那么下面句子()的分词结果就可以直接表示成如()所示的逐字标注形式:

()分词结果:/上海/计划/N/本/世纪/末/实现/人均/国内/生产/总值/五千美元/。

()字标注形式:上/B海/E计/B划/E N本/s世/纪/末/实/现/人/均/国/内/E生/B产/E总/B值/五/B千/美/元/。/S

首先需要说明,这里说到的不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符,本文所说的,也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然,汉字依然是这个单元集合中数量最多的一类字符。

客服热线: 传真号码: 0373-5858656
版权所有:河南新乡惠建站 备案:15010104
返回顶部