IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Java知识库 -> 教你使用java的爬虫爬取你想要的资源 -> 正文阅读

[Java知识库]教你使用java的爬虫爬取你想要的资源

说明

简介: 你还在为想要的资源而获取不到而烦劳吗?你还在为你不会python而爬取不到资源而烦劳吗?没关系,看完我这一篇文章你就会学会用java爬取资源,从此不会因此而烦劳,下面我会以爬取京东物品来进行实战演示!!!

方法摘要

方法方法说明
adoptNode(Node source)试图把另一文档中的节点采用到此文档。
createAttribute(String name)创建指定名称的Attr
createCDATASection(String data)创建其值为指定字符串的 CDATASection 节点。
createComment(String data)创建给定指定字符串的 Comment 节点。
createDocumentFragment()创建空 DocumentFragment 对象。
createElement(String tagName)创建指定类型的元素。
createElementNS(String namespaceURI, String qualifiedName)创建给定的限定名称和名称空间 URI 的元素。
createEntityReference(String name)创建 EntityReference 对象。
createProcessingInstruction(String target, String data)创建给定指定名称和数据字符串的 ProcessingInstruction 节点。
createTextNode(String data)创建给定指定字符串的 Text 节点。
getDoctype()与此文档相关的文档类型声明(参见 DocumentType)。
getDocumentElement()这是一种便捷属性,该属性允许直接访问文档的文档元素的子节点。
getDocumentURI()文档的位置,如果未定义或 Document 是使用 DOMImplementation.createDocument 创建的,则为 null。
getDomConfig()调用 Document.normalizeDocument() 时使用的配置。
getElementsByTagName(String tagname)按文档顺序返回包含在文档中且具有给定标记名称的所有 Element 的 NodeList。
getElementById(String elementId)返回具有带给定值的 ID 属性的 Element。
getElementsByTagNameNS(String namespaceURI, String localName)以文档顺序返回具有给定本地名称和名称空间 URI 的所有 Elements 的 NodeList。
getImplementation()处理此文档的 DOMImplementation 对象。
getInputEncoding()指定解析时此文档使用的编码的属性。
getStrictErrorChecking()指定是否强制执行错误检查的属性。
getXmlEncoding()作为 XML 声明的一部分,指定此文档编码的属性。
getXmlStandalone()作为 XML 声明的一部分,指定此文档是否为独立文档的属性。
getXmlVersion()作为 XML 声明 的一部分指定此文档版本号的属性。
importNode(Node importedNode, boolean deep)从另一文档向此文档导入节点,而不改变或移除原始文档中的源节点;此方法创建源节点的一个新副本。
normalizeDocument()此方法的行为如同使文档通过一个保存和加载的过程,而将其置为 “normal(标准)” 形式。
renameNode(Node n, String namespaceURI, String qualifiedName)重命名 ELEMENT_NODE 或 ATTRIBUTE_NODE 类型的现有节点。
setDocumentURI(String documentURI)//文档的位置,如果未定义或 Document 是使用 DOMImplementation.createDocument 创建的,则为 null。
setStrictErrorChecking(boolean strictErrorChecking)指定是否强制执行错误检查的属性。
setXmlStandalone(boolean xmlStandalone)作为 XML 声明 的一部分指定此文档是否是单独的的属性。
setXmlVersion(String xmlVersion)作为 XML 声明 的一部分指定此文档版本号的属性。

常用的Element节点方法

得到文档的根节点.

Element element = document.getRootElement(); 

得到某节点的单个子节点

Element element =root.element("node");

得到某节点下的所有子节点并进行遍历

List nodes = rootElm.elements("node"); 
for (Iterator it = nodes.iterator(); it.hasNext();) { 
  Element element = (Element) it.next(); 
} 

在某个节点下添加子节点

Element element = newElement.addElement("node");

删除某个节点

Element element = parentElement.remove(childElement);

设置节点的文字

ageElm.setText("20"); 

添加一个CDATA节点

Element element = infoElement.addElement("content");
element .addCDATA(diary.getContent());

实战:爬取B站番剧

Maven

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

代码

步骤

  1. 打开控制台检查网页的结构
    在这里插入图片描述
  2. 逐步分析哪些内容在哪个标签下,找到该内容的class或id

比如此处我们要找到 bang_itme 这个class,然后在找它下面的其他class或者id

在这里插入图片描述3. 完整代码如下

public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        new HtmlParseUtil().myAnime("柯南");
    }

    public void myAnime(String keyWorks) throws IOException {
        String encode = URLEncoder.encode(keyWorks, "UTF-8");
        String url = "https://search.bilibili.com/all?keyword="+encode+"&from_source=web_search"; // 搜索地址
        Document document = Jsoup.parse(new URL(url), 30000);
        Elements elements = document.getElementsByClass("bangumi-item");
        for (Element element : elements) {
            Elements link = element.getElementsByClass("left-img");
            System.out.println(link.attr("href").split("//")[1]);
            System.out.println(element.getElementsByClass("title").attr("title"));
            System.out.println(element.getElementsByClass("desc").text());
        }
    }
}    
  1. 执行结果
    在这里插入图片描述

推荐阅读

2.5万字详细讲解个人网站的开发过程和项目的部署

不会用liunx命令怎么办?教你安装宝塔解除该烦恼

Redis常用的命令整理和springboot的整合

看青年大学习的正确步骤

springboot文件上传

  Java知识库 最新文章
计算距离春节还有多长时间
系统开发系列 之WebService(spring框架+ma
springBoot+Cache(自定义有效时间配置)
SpringBoot整合mybatis实现增删改查、分页查
spring教程
SpringBoot+Vue实现美食交流网站的设计与实
虚拟机内存结构以及虚拟机中销毁和新建对象
SpringMVC---原理
小李同学: Java如何按多个字段分组
打印票据--java
上一篇文章      下一篇文章      查看所有文章
加:2021-08-24 15:25:20  更:2021-08-24 15:25:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 9:54:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码