在線中文分詞

開發程序 0

    

中文分詞指的是中文在根基文法上有其特别性而存在的分詞 。

分詞就是将持续的字序列遵循必然的规范从头组合成语义自力词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能经过过程较着的分界符来简单划界,唯独词没有一个情势上的分界符,固然英文也一样存在短语的划分题目,不过在词这一层上,中文比之英文要复杂很多、坚苦很多。

常见分詞项目

SCWS

Hightman开辟的一套基于词频词典的机械中文分詞引擎,它能将一整段的汉字根基精确的切分成词。采取的是汇集的词频词典,并辅以必然的专驰名称,人名,地名,数字年代等法则辨认来达到基天职詞,经小范围测试大年夜概精确率在 90% ~ 95% 之间,已能根基满足一些小型搜刮引擎、关头字提取等场合应用。45Kb摆布的文本切词时候是0.026秒,大年夜概是1.5MB文本/秒,撑持PHP4和PHP 5。

FudanNLP

FudanNLP主假如为中文自然说话措置而开辟的程序包,也包含为实现这些任务的机械进修算法和数据集。本程序包及其包含数据集利用LGPL3.0许可证。开辟说话为Java。功能包含中文分詞等,不需要字典撑持。

ICTCLAS

这是最早的中文开源分詞项目之一,ICTCLAS在国内973专家组组织的评测中勾当获得了第一名,在第一届国际中文措置研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分詞速度单机996KB/s,分詞精度98.45%,API不超越200KB,各类词典数据紧缩后不到3M.ICTCLAS全数采取C/C++编写,撑持Linux、FreeBSD及Windows系列操纵系统,撑持C/C++、C#、Delphi、Java等主流的开辟说话。

HTTPCWS

HTTPCWS 是一款基于HTTP和谈的开源中文分詞系统,今朝仅撑持Linux系统。HTTPCWS 利用“ICTCLAS 3.0 2009共享版中文分詞算法”的API进行分詞措置,得出分詞成果。HTTPCWS 将代替之前的 PHPCWS 中文分詞扩大。

CC-CEDICT

一个中文词典开源项目,供给一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分詞利用,并且不存在版权题目。Chrome中文版就是利用的┞封个词典进行中文分詞的。

IK

IKAnalyzer是一个开源的,基于java说话开辟的轻量级的中文分詞程序包。从2006年12月推出1.0版开端,IKAnalyzer已推出了3个大年夜版本。最初,它是以开源项目Luence为利用主体的,连系词典分詞和文法阐发算法的中文分詞组件。新版本的IKAnalyzer3.0则成长为面向Java的公用分詞组件,自力于Lucene项目,同时供给了对Lucene的默许优化实现。

Paoding

Paoding(厨子解牛分詞)基于Java的开源中文分詞组件,供给lucene和solr 接口,具有极 高效力高擴展性。引入隱喻,采取完全的面向對象設計,構思先進。

高效力:在PIII 1G内存小我机械上,1秒可精确分詞 100萬漢字。

采取基于 不限制個數的詞典文件對文┞仿進行有效切分,使能夠將對詞彙分類定義。

能夠對未知的詞彙進行公道解析。

僅撑持Java語言。

MMSEG4J

MMSEG4J基于Java的开源中文分詞组件,供给lucene和solr 接口:

1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分詞器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以便利在Lucene和Solr中利用。

2.MMSeg 算法有两种分詞编制:Simple和Complex,都是基于正向最大年夜匹配。Complex 加了四个法则过虑。官方说:词语的┞俘确辨认率达到了 98.41%。mmseg4j已实现了这两种分詞算法。

盘古分詞

盘古分詞是一个基于.net 平台的开源中文分詞组件,供给lucene(.net 版本) 和HubbleDotNet的接口

高效:Core Duo 1.8 GHz 下单线程 分詞速度为 390K 字符每秒

精确:盘古分詞采取字典和统计连系的分詞算法,分詞精确率较高。

功能:盘古分詞供给中文人名辨认,简繁同化分詞,多元分詞,英文词根化,强迫一元分詞,词频优先分詞,停用词过滤,英文专名提取等一系列功能。

Jcseg

jcseg是利用Java开辟的一个中文分詞器,利用风行的mmseg算法实现。[4]

1。mmseg四种过滤算法,分詞精确率达到了98.4%以上。

2。撑持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內容,並且對詞庫進行了分類,詞庫整合了《現代漢語詞典》和cc-cedict辭典。

3。词条拼音和同义词撑持,jcseg为所有词条标注了拼音,并且词条可以添加同义词调集,jcseg会主动将拼音和同义词插手到分詞成果中。

4。中文數字和分數識別,例如:"四五十個人都來了,三十分之一。"中的"四五十"和"三十分之一",並且jcseg會自動將其轉換爲對應的阿拉伯數字。

5。撑持中英同化詞的識別。例如:B超,x射線。

6。撑持根基單字單位的識別,例如2012年。

7。杰出的英文撑持,自動識別電子郵件,網址,分數,小數,百分數……。

8。智能圓角半角轉換處理。

9。特别字母識別:例如:Ⅰ,Ⅱ

10。特别數字識別:例如:①,⑩

11。配對標點內容提取:例如:最好的Java書《java編程思想》,‘暢想杯黑客技術大年夜賽’,被《,‘,“,『標點標記的內容。

12。智能中文人名識別。中文人名識別正確率達94%以上。

jcseg佩带了jcseg.properties建设文档,利用文本編輯器便可以自立的编辑其选项,建设合适分歧利用处合的分詞利用。例如:最大年夜匹配分詞数,是不是开启中文人名辨认,是不是载入词条拼音,是不是载入词条同义词……。

friso

friso是利用c说话开辟的一个中文分詞器,利用风行的mmseg算法实现。完全基于模块化设计和实现,可以很便利的植入到其他法式中,例如:MySQL,PHP等。并且供给了一个php中文分詞扩大robbe。

1。只撑持UTF-8編碼。【源碼無需点窜就可以在各種平台下編譯利用,加載完20萬的詞條,內存占用穩定爲14M。】。

2。mmseg四种过滤算法,分詞精确率达到了98.41%。

3。撑持自定義詞庫。在dict文件夾下,可以隨便添加/刪除/更改詞庫和詞庫詞條,並且對詞庫進行了分類。

4。詞庫利用了friso的Java版本jcseg的簡化詞庫。

5。撑持中英同化詞的識別。例如:c語言,IC卡。

7。很好的英文撑持,電子郵件,網址,小數,分數,百分數。

8。撑持阿拉伯數字根基單字單位的識別,例如2012年,5噸,120斤。

9。自動英文圓角/半角,大年夜寫/小寫轉換。

并且具有很高的分詞速度:简单模式:3.7M/秒,复杂模式:1.8M/秒

xxfseo.com