1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 word v1.3.1 发布,Java 分布式中文分词组件 下载

本帖由 漂亮的石头2015-10-05 发布。版面名称:软件资讯

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    487,297
    赞:
    47
    word 分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词性标注、同义标注、反义标注、拼音标注等功能。同时还无缝和Lucene、Solr、ElasticSearch、Luke集成。

    [COLOR=rgba(0, 0, 0, 0.8)]word 1.3.1这个版本是从代码分支[/COLOR]ForElasticsearch1.7.2[COLOR=rgba(0, 0, 0, 0.8)]中编译出来的,主要目的是支持与lucene4.10.4、solr4.10.4和elasticsearch1.7.2兼容的版本。[/COLOR]

    word 分词的分词效果怎么样?请看:Java开源项目cws_evaluation:中文分词器分词效果评估
    word v1.3.1 发布,Java 分布式中文分词组件下载地址
     
正在加载...