新闻 XXL-CRAWLER v1.1.0，面向对象的分布式爬虫框架下载

漂亮的石头 · 2017-11-08

XXL-CRAWLER v1.1.0 已发布，更新如下：

新特性：

页面默认cssQuery调整为html标签；

升级Jsoup至1.11.1版本；

修复PageVO注解失效的问题；

属性注解参数attributeKey调整为selectVal；

代理IP：对抗反采集策略规则WAF；

动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

《面向对象的分布式爬虫框架XXL-CRAWLER》

XXL-CRAWLER 是一个灵活高效、面向对象的分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、异步、IP动态代理"等特性；

特性

面向对象：通过VO对象描述页面信息，提供注解方便的映射页面数据，爬取结果主动封装Java对象返回；

多线程；

扩散全站：将会以现有URL为起点扩散爬取整站；

去重：防止重复爬取；

URL白名单：支持设置页面白名单正则，过滤URL；

异步：支持同步、异步两种方式运行；

自定义请求信息，如：请求参数、Cookie、userAgent等；

轻量级：底层实现仅依赖jsoup，简洁高效；

超时控制：支持设置爬虫请求的超时时间；

主动停顿：爬虫线程处理完页面之后进行主动停顿，避免过于频繁被拦截；

单个页面支持抽取一个或多个PageVO；

代理IP：对抗反采集策略规则WAF；

动态代理：支持运行时动态调整代理池，以及自定义代理池路由策略；

文档地址：中文文档
技术交流：社区交流
XXL-CRAWLER v1.1.0，面向对象的分布式爬虫框架下载地址

登录或注册

新闻 XXL-CRAWLER v1.1.0，面向对象的分布式爬虫框架下载

漂亮的石头版主管理成员

登录或注册

新闻 XXL-CRAWLER v1.1.0，面向对象的分布式爬虫框架 下载

漂亮的石头 版主 管理成员

新闻 XXL-CRAWLER v1.1.0，面向对象的分布式爬虫框架下载

漂亮的石头版主管理成员