ansj中文分词是一个完全开源的,基于google语义模型+条件随机场模型的中文分词的java实现.具有使用简单开箱即用等特点。分词速度达到每秒钟大约100万字左右(mac air下测试),准确率能达到96%以上. 更新内容: 需改歧义词典的格式,修复%作为量词存在 对新词的新词发现提供了词性分析功能,不再词性全部标注为nw 重新训练新词发现模型,针对机构名做了大量调优, 测试地址:http://www.nlpcn.org/demo.jsp ansj 中文分词 5.0.1 发布下载地址