中文分词和二元分词综合对比
为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。
采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒;
从搜索结果来看,两者可以大致相同数量的搜索结果(显示结果根据相关度排列顺序不同)。
对文本进行中文分词的目的是要提高文档检索的相关性,由于相关性的算法(如下图)涉及到很多因素,所以对二元切分和中文分词切分显示结果到底谁更相关(人理解的意义相关?),还无法得出结论。
相关度算法:
但有一点可以肯定,采用中文分词多花的解析中文时间可以带来丰厚的回报:索引文件和Term数量的大大减少。
可参考本文最后表格的图片对比。图中的数据是出现频率第100至120个Term情况,二元分词产生了大量的没有意义的Term。
|
数据源大小(M)
|
索引大小
|
膨胀率
|
Term个数
|
每兆Term个数
|
所用时间(秒)
|
秒/M
|
中文
|
14.20
|
22.50
|
1.584
|
76473.00
|
5385.42
|
105
|
7.394
|
二元
|
14.20
|
31.50
|
2.218
|
384488.00
|
27076.62
|
87
|
6.126
|
中文
|
4.73
|
7.54
|
1.594
|
84895.00
|
17948.20
|
50
|
10.570
|
二元
|
4.73
|
11.00
|
2.325
|
238064.00
|
50330.66
|
35
|
7.399
|
|
中文分词
|
二元分词
|
索引源大小
|
14.2M
|
14.2M
|
索引源内容
|
论坛某天全部发言
|
论坛某天全部发言
|
建立索引用时
|
105秒
|
87秒
|
索引文件大小
|
22.5M
|
31.5M
|
生成的Term数
|
76473
|
384488 (5.02倍)
|
文档数
|
6802
|
6802
|
搜索:XX
|
236 (搜索结果(条))
|
235(搜索结果(条))
|
XX
|
361
|
361
|
XX
|
769
|
768
|
XX
|
50
|
50
|
XX
|
41
|
41
|
XX
|
3
|
3
|
XX
|
0
|
0
|
最常出现的词:
|
Rank = 查询Text出现的次数
|
|
|
<shapetype id="_x0000_t75"><stroke></stroke><formulas><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f></formulas><path></path><lock v:ext="edit" aspectratio="t"><img width="231" hspace="5" height="424" align="baseline" src="http://www.cnblogs.com/images/cnblogs_com/tianchunfeng/15983/o_image001.png" alt=""></lock></shapetype>
|
|
作者:lhelper 我要去桂林
分享到:
相关推荐
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...
中文分词:采用二元词图以及viterbi算法.docx
简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。 <br>类结构 BaseSplitter(分词基类) │ ├─SingleSplitter...
将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回...
用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...
《自然语言处理入门》第03章 二元语法与中文分词.pptx
ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。
一种改进的基于二元统计的HMM分词算法
结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。...
简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。 <br>类结构 BaseSplitter(分词基类) │ ├─SingleSplitter...
Lucene.Net 2.3.1开发介绍 —— 二、分词(四),这是一个系列的文档,太多了,只好分开
简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。类结构 BaseSplitter(分词基类) │ ├─SingleSplitter(一元切分) │ ├─...
针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。 5. 文本聚类及热点分析 能够从大规模数据中自动分析...
特性默认支持多种分词器StandardTokenizer - 默认分词,基于词典BigramTokenizer - 二元分词,支持英文,数字识别StopwordTokenizer - 自定义过滤词,扩展类UnigramTokenizer - 一元分词可扩展的自定义分词接口支持...
lucene.net2.3.1开发介绍、类库、示例、建立索引、代码、分词、分词过程、分词器分词、分词器调用流程、二元分词等
中文分词器 主要用于中法创研中心的“文本情感分析器——多功能应用接口” 该中文分词器基于word分词器 用途特点 中文分词 可排除停止词 多种分词算法 支持分布式 词性标注 同义、反义、拼音标注 词语境计算 相关词 ...
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bigram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文...
分词训练用的pku训练集,主要是说明相似度计算的样例数据。
C++实现的词法分析器,能够实现文件的读入读出,生成二元式
二元分词 一元分词 自动分类 向量距离分类算法 根据算术平均,为每类文本集生成一个代表该类的特征向量 提取待分类文本的特征向量 计算该向量与每类特征向量之间的相似度 判定文本属于与文本距离最近相似度最大的...