Apache Tika 2.1.0 现已发布,这是一个用于检测和提取元数据和结构化文本内容的工具包。 主要更新内容 优化了 tika-parsers-extended 的打包 当没有指定编码时,Tika 应用程序会以 UTF-8 格式写入 将 PDF 的默认渲染策略从 NO_TEXT 更改为 ALL 修复了当用户指定了 tesseract 路径但未同时指定 TesserData 路径时,指向错... Apache Tika 2.1.0 发布,内容检测和分析框架下载地址