就说爬经典哲理文章-短篇哲理文章_文章吧这个网站吧
要实现将哲理类别的所有文章,全部爬下来,按照标准的格式生成txt文件。
我不相信python能比java更少代码地实现这个功能
for(String page:SpiderUtil.pager("https://www.wenzhangba.com/zheliwenzhang/",4000).values()){
for(String href:Hp.find(page, "div[class=cmt_info]>div[class=subBox]>a[0][attr=href]")){
String p = SpiderUtil.getPageContent(href);
Thread.sleep(4000);
p=Hp.find(p, "div[id=main]>div[class=a_detail]").get(0);
p=HtmlUtil.killDoubleHtml(p, "script");
p=HtmlUtil.innerText(p);
p=TxtUtil.validate(ListUtil.list2Str(StringUtil.split(p, ListUtil.list2Arr(SpiderUtil.getImgUrls(p))),"\r\n"));
FileUtil.writeTxt(p, FileUtil.Desktop+"哲理/"+FileUtil.validateFileName(href)+".txt");
}
}
|