中文分词技术属于自然语言处理技术范畴,对于一句话,我们可以根据自己的理解去区分哪些是词和哪些不是词。但换成是计算机的话,搜索引擎不是人脑;它只是一道程序,搜索引擎只能是通过分词算法去理解了、分析。
目前的分词算法主要分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
...