新闻 HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！下载

漂亮的石头 · 2018-01-30

全体 OSChina 官方程序员都吓屎了，因为红薯又写代码了。这次他撸了个 HtmlSucker ，这个名字一听就很猥琐有没有。而且其实也没什么卵用，无非就是在不知道 HTML 页面规则的情况下，从一个 HTML 网页中提取文章的正文信息。用来干嘛呢？反正肯定跟爬虫有关。

听说第一个版本还很弱智，原理是计算最大文本节点的方式来获取正文信息。（就这也好意思发布一个项目，难道欺负我朝无人吗？）

请大家前往 https://gitee.com/ld/HtmlSucker 吐槽！

Maven:

<dependency>
<groupId>net.oschina.htmlsucker</groupId>
<artifactId>HtmlSucker</artifactId>
<version>0.0.1</version>
</dependency>

示例代码：

public static void main(String[] args) throws IOException {
String url = "https://www.oschina.net/news/92798/micro-match-1-0-1-released";
System.out.println(HtmlSucker.parse(url, 20000));
}
HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！下载地址

登录或注册

新闻 HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！下载

漂亮的石头版主管理成员

登录或注册

新闻 HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！ 下载

漂亮的石头 版主 管理成员

新闻 HtmlSucker 0.0.1 发布，惊恐 —— 红薯又写代码了！！下载

漂亮的石头版主管理成员