`
ihuashao
  • 浏览: 4549462 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

中文分词和二元分词综合对比

阅读更多

中文分词和二元分词综合对比


为了测试中文分词和二元分词的差异,现将初步的测试数据做了对比。关于二元分词可以参考车东先生的相关文章。

采用中文分词每1M产生1.55M的索引文件,膨胀率1.55;每1M用时大约10秒;采用二元分词每1M产生2.21M的索引文件,膨胀率2.21;每1M用时大约7秒;

从搜索结果来看,两者可以大致相同数量的搜索结果(显示结果根据相关度排列顺序不同)。

对文本进行中文分词的目的是要提高文档检索的相关性,由于相关性的算法(如下图)涉及到很多因素,所以对二元切分和中文分词切分显示结果到底谁更相关(人理解的意义相关?),还无法得出结论。

相关度算法:

score(q,d) =

Σ

tf(t in d) * idf(t) * getBoost(t.field in d) * lengthNorm(t.field in d)

* coord(q,d) * queryNorm(q)

t in q

但有一点可以肯定,采用中文分词多花的解析中文时间可以带来丰厚的回报:索引文件和Term数量的大大减少。

可参考本文最后表格的图片对比。图中的数据是出现频率第100120Term情况,二元分词产生了大量的没有意义的Term

数据源大小(M

索引大小

膨胀率

Term个数

每兆Term个数

所用时间(秒)

/M

中文

14.20

22.50

1.584

76473.00

5385.42

105

7.394

二元

14.20

31.50

2.218

384488.00

27076.62

87

6.126

中文

4.73

7.54

1.594

84895.00

17948.20

50

10.570

二元

4.73

11.00

2.325

238064.00

50330.66

35

7.399

中文分词

二元分词

索引源大小

14.2M

14.2M

索引源内容

论坛某天全部发言

论坛某天全部发言

建立索引用时

105

87

索引文件大小

22.5M

31.5M

生成的Term

76473

384488 5.02倍)

文档数

6802

6802

搜索:XX

236 (搜索结果(条))

235(搜索结果(条))

XX

361

361

XX

769

768

XX

50

50

XX

41

41

XX

3

3

XX

0

0

最常出现的词:

Rank = 查询Text出现的次数

<shapetype id="_x0000_t75"><stroke></stroke><formulas><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f><f></f></formulas><path></path><lock v:ext="edit" aspectratio="t"><img width="231" hspace="5" height="424" align="baseline" src="http://www.cnblogs.com/images/cnblogs_com/tianchunfeng/15983/o_image001.png" alt=""></lock></shapetype>

作者:lhelper 我要去桂林

分享到:
评论

相关推荐

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    中文分词:采用二元词图以及viterbi算法.docx

    中文分词:采用二元词图以及viterbi算法.docx

    ChineseSplitter中文分词(单字、双字、词义)

    简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。 &lt;br&gt;类结构 BaseSplitter(分词基类) │ ├─SingleSplitter...

    论文研究-二元语法中文分词数据平滑算法性能研究.pdf

    将多种平滑算法应用于基于二元语法的中文分词,在1998年1月人民日报语料库的基础上,讨论了困惑度和实际分词性能之间的关系,对比分析各平滑算法的实际性能,结果表明,简单的加值平滑算法性能最优,封闭精度、召回...

    lucene分词测试代码

    用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...

    《自然语言处理入门》第03章 二元语法与中文分词.pptx

    《自然语言处理入门》第03章 二元语法与中文分词.pptx

    中文分词源码

    ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。

    论文---一种改进的基于二元统计的HMM分词算法

    一种改进的基于二元统计的HMM分词算法

    论文研究-LDA模型下不同分词方法对文本分类性能的影响研究.pdf

    结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。...

    中文分词ChineseSplitter

    简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。 &lt;br&gt;类结构 BaseSplitter(分词基类) │ ├─SingleSplitter...

    Lucene.Net 2.3.1开发介绍 —— 二、分词(四)

    Lucene.Net 2.3.1开发介绍 —— 二、分词(四),这是一个系列的文档,太多了,只好分开

    C#编写的ChineseSplitter中文分词系统源代码

    简介 ChineseSplitter中文分词系统集成了单字(一元切分)、双字(二元切分)、词义切分等分词方法。提供很好的权重计算办法。类结构 BaseSplitter(分词基类) │ ├─SingleSplitter(一元切分) │ ├─...

    灵柩软件 可用于汉语分词处理

    针对切分标注结果,系统可以自动地进行一元词频统计、二元词语转移概率统计(统计两个词左右连接的频次即概率)。针对常用的术语,会自动给出相应的英文解释。 5. 文本聚类及热点分析 能够从大规模数据中自动分析...

    CWSharp:CWSharp - .NET&.NET Core中文分词库

    特性默认支持多种分词器StandardTokenizer - 默认分词,基于词典BigramTokenizer - 二元分词,支持英文,数字识别StopwordTokenizer - 自定义过滤词,扩展类UnigramTokenizer - 一元分词可扩展的自定义分词接口支持...

    lucene学习笔记

    lucene.net2.3.1开发介绍、类库、示例、建立索引、代码、分词、分词过程、分词器分词、分词器调用流程、二元分词等

    word源码java-Chinese_word_segmenter:Chinese_word_segments

    中文分词器 主要用于中法创研中心的“文本情感分析器——多功能应用接口” 该中文分词器基于word分词器 用途特点 中文分词 可排除停止词 多种分词算法 支持分布式 词性标注 同义、反义、拼音标注 词语境计算 相关词 ...

    论文研究-基于类别特征向量表示的中文文本分类算法.pdf

    采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bigram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文...

    pku_training.utf8

    分词训练用的pku训练集,主要是说明相似度计算的样例数据。

    C++编程实现的词法分析器

    C++实现的词法分析器,能够实现文件的读入读出,生成二元式

    基于lucene的搜索引擎总结

    二元分词 一元分词 自动分类 向量距离分类算法 根据算术平均,为每类文本集生成一个代表该类的特征向量 提取待分类文本的特征向量 计算该向量与每类特征向量之间的相似度 判定文本属于与文本距离最近相似度最大的...

Global site tag (gtag.js) - Google Analytics