【Java】Java中文分词器Ansj的使用,
分享于 点击 3937 次 点评:87
【Java】Java中文分词器Ansj的使用,
以前都是用C++对中文进行分词,也用过Python的“结巴”分词,最近用了一下Java的Ansj中文分词,感觉还不错。
下面是用Ansj对中文进行分词的一个简单例子,希望能对大家有用。
1.下载Ansj的相关jar包
要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg
2.程序代码
用Ansj进行中文分词的简单代码如下所示:
[java]view plaincopy
- importorg.ansj.splitWord.analysis.ToAnalysis;
- publicclassSplitWordsByAnsj{
- publicstaticvoidmain(String[]args){
- Stringwords="中国是世界四大文明古国之一,有着悠久的历史,距今约5000年前,以中原地区为中心开始出现聚落组织进而成国家和朝代,后历经多次演变和朝代更迭,持续时间较长的朝代有夏、商、周、汉、晋、唐、宋、元、明、清等。中原王朝历史上不断与北方游牧民族交往、征战,众多民族融合成为中华民族。20世纪初辛亥革命后,中国的君主政体退出历史舞台,取而代之的是共和政体。1949年中华人民共和国成立后,在中国大陆建立了人民代表大会制度的政体。中国有着多彩的民俗文化,传统艺术形式有诗词、戏曲、书法和国画等,春节、元宵、清明、端午、中秋、重阳等是中国重要的传统节日。";
- System.out.println(ToAnalysis.parse(words));
- }
- }
3.分词结果
例子中对那一段中文的分词结果如下所示:
[plain]view plaincopy
- [中国,是,世界,四,大,文明,古,国,之一,,,有着,悠久,的,历史,,,距,今,约,5000,年前,,,以,中原,地区,为,中心,开始,出现,聚落,组织,进而,成,国家,和,朝代,,,后,历经,多次,演变,和,朝代,更迭,,,持续,时间,较,长,的,朝代,有,夏,、,商,、,周,、,汉,、,晋,、,唐,、,宋,、,元,、,明,、,清,等,。,中原,王朝,历史,上,不断,与,北方,游牧,民族,交往,、,征战,,,众多,民族,融合,成为,中华民族,。,20,世纪,初,辛亥革命,后,,,中国,的,君主,政体,退出,历史,舞台,,,取而代之,的,是,共和,政体,。,1949年,中华人民共和国,成立,后,,,在,中国,大陆,建立,了,人民,代表大会,制度,的,政体,。,中国,有着,多,彩,的,民俗,文化,,,传统,艺术,形式,有,诗词,、,戏曲,、,书法,和,国画,等,,,春节,、,元宵,、,清明,、,端午,、,中秋,、,重阳,等,是,中国,重要,的,传统,节日,。]
这个例子非常简单,希望对大家有所帮助。
相关文章
- 暂无相关文章
用户点评