1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 汉语言处理包 HanLP v1.3.5,新功能、优化与维护 下载

本帖由 漂亮的石头2017-10-23 发布。版面名称:软件资讯

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    488,069
    赞:
    47
    HanLP v1.3.5 更新内容:


    1. 大幅优化CRF分词和二阶HMM分词,重构CharacterBasedGenerativeModelSegment


    2. 自定义词典支持热更新:#563 ,ngram模型支持热加载:#580


    3. 新增一个提高用户词典优先级的开关:#633


    4. 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt"


    5. 开放TextRank关键词提取中的最大迭代次数参数:#577


    6. 为Term添加equal方法


    7. TextRankKeyword 提取窗口相近词的强化


    8. 文本摘要方法支持自定义句子分隔符


    9. 提高AC自动机健壮性,添加hasKeyword接口


    10. 修复BinTrie.remove不存在的key时导致的问题:#540


    11. 解决mini模型下同时打开所有命名实体识别和数词识别时触发的问题:#542


    12. CharTable.txt 添加上下标字符的对应关系


    13. 将“\t”等不可打印的字符视作分隔符:#584


    14. 中文数词与阿拉伯数词切分开


    15. 修正全角年份识别中字符串长度错误,修正数字识别工具的错误,增加测试代码。支持读取包含BOM的文本文件。


    16. 校对CoreNatureDictionary.txt,删除以分号开头的错误词语:#221 (comment)


    17. 修复CoNLLWord中toString方法的bug


    18. 微调人名识别模型:#562 删除人名识别模型中的高频动词D标签,降低误命中率,音译人名识别取消外国地名触发


    19. 修复Nature.fromString和IOUtil.loadDictionary:#626


    20. 修正“还款”的拼音:#565 修正简繁一多对应校验表/梁→梁樑(樑為梁的異體字,由簡體轉為繁體時僅需採用梁即可):#606


    21. 数据包依然兼容data-for-1.3.3.zip: 国内网盘海外連結 md5=71f6fbbcde4ad70b5b97d4a01ca03c3c
      获取最新版的数据包,请fork一份并git clone https://github.com/YourName/HanLP.git。

    Portable版同步升级到v1.3.5

    <dependency>
    <groupId>com.hankcs</groupId>
    <artifactId>hanlp</artifactId>
    <version>portable-1.3.5</version>
    </dependency>


    HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

    在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的模型。

    下载地址:hanlp-1.3.5-release.zip
    汉语言处理包 HanLP v1.3.5,新功能、优化与维护下载地址
     
正在加载...