1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 XXL-CRAWLER v1.1.0,面向对象的分布式爬虫框架 下载

本帖由 漂亮的石头2017-11-08 发布。版面名称:软件资讯

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    488,069
    赞:
    47
    XXL-CRAWLER v1.1.0 已发布,更新如下:

    新特性:


    1. 页面默认cssQuery调整为html标签;


    2. 升级Jsoup至1.11.1版本;


    3. 修复PageVO注解失效的问题;


    4. 属性注解参数attributeKey调整为selectVal;


    5. 代理IP:对抗反采集策略规则WAF;


    6. 动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略;

    《面向对象的分布式爬虫框架XXL-CRAWLER》

    XXL-CRAWLER 是一个灵活高效、面向对象的分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理"等特性;

    特性


    1. 面向对象:通过VO对象描述页面信息,提供注解方便的映射页面数据,爬取结果主动封装Java对象返回;


    2. 多线程;


    3. 扩散全站:将会以现有URL为起点扩散爬取整站;


    4. 去重:防止重复爬取;


    5. URL白名单:支持设置页面白名单正则,过滤URL;


    6. 异步:支持同步、异步两种方式运行;


    7. 自定义请求信息,如:请求参数、Cookie、userAgent等;


    8. 轻量级:底层实现仅依赖jsoup,简洁高效;


    9. 超时控制:支持设置爬虫请求的超时时间;


    10. 主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截;


    11. 单个页面支持抽取一个或多个PageVO;


    12. 代理IP:对抗反采集策略规则WAF;


    13. 动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略;

    文档地址:中文文档
    技术交流:社区交流
    XXL-CRAWLER v1.1.0,面向对象的分布式爬虫框架下载地址
     
正在加载...