1. XenForo 1.5.14 中文版——支持中文搜索!现已发布!查看详情
  2. Xenforo 爱好者讨论群:215909318 XenForo专区

新闻 HtmlSucker 0.0.1 发布,惊恐 —— 红薯又写代码了!! 下载

Discussion in '软件资讯' started by 漂亮的石头, 2018-01-30.

  1. 漂亮的石头

    漂亮的石头 版主 Staff Member

    Joined:
    2012-02-10
    Messages:
    488,114
    Likes Received:
    47
    全体 OSChina 官方程序员都吓屎了,因为红薯又写代码了。这次他撸了个 HtmlSucker ,这个名字一听就很猥琐有没有。而且其实也没什么卵用,无非就是在不知道 HTML 页面规则的情况下,从一个 HTML 网页中提取文章的正文信息。用来干嘛呢? 反正肯定跟爬虫有关。

    听说第一个版本还很弱智,原理是计算最大文本节点的方式来获取正文信息。(就这也好意思发布一个项目,难道欺负我朝无人吗?)

    请大家前往 https://gitee.com/ld/HtmlSucker 吐槽!

    Maven:

    <dependency>
    <groupId>net.oschina.htmlsucker</groupId>
    <artifactId>HtmlSucker</artifactId>
    <version>0.0.1</version>
    </dependency>

    示例代码:

    public static void main(String[] args) throws IOException {
    String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
    System.out.println(HtmlSucker.parse(url, 20000));
    }
    HtmlSucker 0.0.1 发布,惊恐 —— 红薯又写代码了!!下载地址
     
Loading...