1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 Gecco 1.2.0 发布,支持运行时抓取规则配置 下载

本帖由 漂亮的石头2016-07-05 发布。版面名称:软件资讯

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    487,737
    赞:
    47
    Gecco 1.2.0 发布了,该版本改进内容包括:

    1.HttpClientDownloader保证inputstream能重复使用,@shangjian提供修改思路

    2.支持一个Before/AfterDownloader对应多个SpiderBean

    3.Gecco的动态编程是新版本的核心功能,Gecco支持动态生成SpiderBean包括类,属性,注解。可以不需要预先定义SpiderBean即可完成抓取。详细情况可以参考http://my.oschina.net/u/2336761/blog/706041

    通过动态特性,可以实现如下功能:


    1. 已经定义了ORM(如:hiberante)的bean,将注解动态的加载到ORM的bean中,可以很方便的将页面格式化后入库


    2. 很多类似的网站的抓取,SpiderBean都一样,只是提取元素的cssPath不一样,为了不构建很多重复的SpiderBean,可以考虑动态生成SpiderBean


    3. 通过配置的方式抓取页面,通过后台管理系统、配置文件等配置抓取规则,动态的将配置规则转换成SpiderBean


    4. 利用动态SpiderBean可以构建可视化爬虫,利用可视化工具构建抓取规则,将规则动态转换为SpiderBean
    Gecco 1.2.0 发布,支持运行时抓取规则配置下载地址
     
正在加载...