IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> JavaScript知识库 -> java使用selenium-java抓取js异步请求的数据 -> 正文阅读

[JavaScript知识库]java使用selenium-java抓取js异步请求的数据

作者:https://csdnimg.cn/release/blogv2/dist/components/js/pc_wap_commontools-5e28c4e010.min.js

互联网提供了大量的数据,有时需要抓取网页上的数据,通过程序实现数据抓取可以实现自动化处理,相比人工打开网页进行数据查看和处理,效率上有明显的提升。

由于有部分网页的内容是通过js以ajax方式请求后端数据以后,再设置到页面上,此时通过httpclient的方式就无法获取到页面的数据了。此时可以使用模拟浏览器访问页面,浏览器下载页面js后会进行解析并执行相关的操作。

通过selenium-java,使用浏览器内核模拟浏览器操作,访问网页,解析和执行js,生成完整的页面内容,然后可以通过接口对返回的数据进行解析。

1. 下载驱动包

下载地址为:CNPM Binaries Mirror
这里用的是谷歌浏览器,因此下载了对应版本的windows和linux驱动。此外,还可以使用firefox等浏览器内核。

2. 创建maven项目,配置依赖

<dependency>
   <groupId>org.seleniumhq.selenium</groupId>
   <artifactId>selenium-java</artifactId>
   <version>3.141.59</version>
</dependency>

3. 配置驱动?

// 设置 chromedirver 的存放位置
System.getProperties().setProperty("webdriver.chrome.driver", "D:/tools/chromedriver_win32/chromedriver.exe");

代码中需要指定驱动的位置,windows和linux平台下,需要分别指定对应的驱动路径。?

4. 代码实现

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;

public class FindDataDemo {

    private void seleniumProcess() {
        
        String uri = "http://tools.2345.com/rili.htm";

        // 设置 chromedirver 的存放位置
        System.getProperties().setProperty("webdriver.chrome.driver", "D:/sdks/tools/chromedriver_win32/chromedriver.exe");

        // 设置浏览器参数
        ChromeOptions chromeOptions = new ChromeOptions();
        chromeOptions.addArguments("--no-sandbox");//禁用沙箱
        chromeOptions.addArguments("--disable-dev-shm-usage");//禁用开发者shm
        chromeOptions.addArguments("--headless"); //无头浏览器,这样不会打开浏览器窗口
        WebDriver webDriver = new ChromeDriver(chromeOptions);

        webDriver.get(uri);
        WebElement webElements = webDriver.findElement(By.id("yi"));

        System.out.println("webElements = " + webElements);

        System.out.println("webElements.getText() = " + webElements.getText());

        String pageSource = webDriver.getPageSource();

        System.out.println("webElements = " + pageSource);        
        
        webDriver.close();
    }

    public static void main(String[] args) {

        long startTime = System.currentTimeMillis();
        
        FindDataDemo findDataDemo = new FindDataDemo();
        findDataDemo.seleniumProcess();

        long endTime = System.currentTimeMillis();

        System.out.println("(endTime - startTime) = " + (endTime - startTime));

    }
}

执行测试程序,可以看到获取到了页面上的内容。

但是通过httpclient访问页面时,发现对应的id的内容是空值。

  JavaScript知识库 最新文章
ES6的相关知识点
react 函数式组件 & react其他一些总结
Vue基础超详细
前端JS也可以连点成线(Vue中运用 AntVG6)
Vue事件处理的基本使用
Vue后台项目的记录 (一)
前后端分离vue跨域,devServer配置proxy代理
TypeScript
初识vuex
vue项目安装包指令收集
上一篇文章      下一篇文章      查看所有文章
加:2022-04-09 18:14:27  更:2022-04-09 18:16:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 0:30:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码