1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 高并发、分布式爬虫 Pholcus 0.8.5 发布 下载

本帖由 漂亮的石头2016-03-23 发布。版面名称:软件资讯

  1. 漂亮的石头

    漂亮的石头 版主 管理成员

    注册:
    2012-02-10
    帖子:
    487,536
    赞:
    47
    Pholcus 0.8.5 发布,此版本优化多项功能(如新增cmd版服务端、客户端,细化历史记录粒度等)、修复多个bug,并减少诸多依赖包,为发布1.0稳定版做准备。

    Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。

    [​IMG]
    更新详情如下所示:

    一、命令行相关功能升级

    1. cmd界面版增加对服务端与客户端模式的支持;

    2. 新增丰富的命令行参数,且优先级高于配置文件。

    二、配置文件更新

    1. 增加更多可配置项;

    2. 重新规范代码,配置参数为优先级最低的默认信息。

    三、Spider结构体调整

    1. Keyword改为Keyin,相应操作界面中“自定义输入”改为“自定义配置”(多任务时应分别多包裹一层“<>”);

    2. MaxPage字段改为Limit,相应操作界面中“最大页数”改为“采集上限”(默认限制url请求数);

    3. 添加subName,用于区分多任务并发的情况;

    4. 允许在规则的Root()中进行阻塞;

    5. 优化动态规则加载的错误处理。

    四、调度器与历史记录模块升级

    1. 增强历史记录功能,历史记录与Spider实例一一对应,且与输出操作保持同步更新;

    2. 修复调度器在32位系统下panic的bug。

    五、输出模块优化

    1. 修改mysql输出模块,支持多行批量插入,修改默认连接池容量为2048,提升输出速率与稳定性;

    2. mgo的insert方法更新,内部增加分批插入控制,默认为5000条,提升写入数据库的稳定性;

    3. 修复连接池捕获panic的bug。

    六、其他

    1. 解决某些规则的代码片段在手动终止任务后依旧默默运行的问题,减少资源消耗;

    2. 解决大量任务长时间运行后手动终止操作耗时太长的问题,加快终止操作响应速度;

    3. 调整运行时目录文件;

    4. 将大部分依赖包合并到项目中;

    5. 修复一些bug。
    高并发、分布式爬虫 Pholcus 0.8.5 发布下载地址
     
正在加载...