我的SEO博客,成雨博客

搜索引擎优化(SEO)技术、搜索引擎营销(SEM)实践、网络营销探索;网站优化SEO服务、SEO顾问服务

[置顶] 电子商务网站中的用户行为

[置顶] 我的SEO博客诚招友情链接

搜索引擎中文分词技术揭密

中文分词技术属于自然语言处理技术范畴,对于一句话,我们可以根据自己的理解去区分哪些是词和哪些不是词。但换成是计算机的话,搜索引擎不是人脑;它只是一道程序,搜索引擎只能是通过分词算法去理解了、分析。

目前的分词算法主要分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
...

分页:[«]1[»]

Powered By Z-Blog 1.8 Devo Build 80201 Code detection by Codefense

Copyright 5dseo.com 我的SEO博客. Some Rights Reserved.沪ICP备08112743号