欢迎访问悦橙教程(wld5.com),关注java教程。悦橙教程  java问答|  每日更新
页面导航 : > > 文章正文

java 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?,开源中文的繁简体转换

来源: javaer 分享于  点击 15075 次 点评:10

java 开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?,开源中文的繁简体转换


Opencc4j

Opencc4j 支持中文繁简体转换,考虑到词组级别。

开源中文的繁简体转换 opencc4j-01-使用入门概览

开源中文的繁简体转换 opencc4j-02-一个汉字竟然对应两个 char?

开源中文的繁简体转换 opencc4j-03-简体还是繁体,你说了算!

开源中文的繁简体转换 opencc4j-04-香港繁简体的支持

开源中文的繁简体转换 opencc4j-05-日文转换支持

Features 特点

  • 严格区分「一简对多繁」和「一简对多异」。

  • 完全兼容异体字,可以实现动态替换。

  • 严格审校一简对多繁词条,原则为「能分则不合」。

  • 词库和函数库完全分离,可以自由修改、导入、扩展。

  • 兼容 Windows、Linux、Mac 平台。

  • 支持自定义分词

  • 支持判断单个字(词)是否为简体/繁体

  • 支持返回字符串中简体/繁体的列表信息

  • 支持中国台湾、香港地区繁简体转换

  • 支持与日文字的转换

从一个 bug 说起

很久很久以前,收到了一个用户的 issue 部分生僻字转小写之后会得到一个乱码(不可见字符)

内容如下:

例如“嘪球”在转换之后得到“
相关栏目:

用户点评