互联网提供了大量的数据,有时需要抓取网页上的数据,通过程序实现数据抓取可以实现自动化处理,相比人工打开网页进行数据查看和处理,效率上有明显的提升。
由于有部分网页的内容是通过js以ajax方式请求后端数据以后,再设置到页面上,此时通过httpclient的方式就无法获取到页面的数据了。此时可以使用模拟浏览器访问页面,浏览器下载页面js后会进行解析并执行相关的操作。
通过selenium-java,使用浏览器内核模拟浏览器操作,访问网页,解析和执行js,生成完整的页面内容,然后可以通过接口对返回的数据进行解析。
1. 下载驱动包
下载地址为:CNPM Binaries Mirror 这里用的是谷歌浏览器,因此下载了对应版本的windows和linux驱动。此外,还可以使用firefox等浏览器内核。
2. 创建maven项目,配置依赖
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>3.141.59</version>
</dependency>
3. 配置驱动?
// 设置 chromedirver 的存放位置
System.getProperties().setProperty("webdriver.chrome.driver", "D:/tools/chromedriver_win32/chromedriver.exe");
代码中需要指定驱动的位置,windows和linux平台下,需要分别指定对应的驱动路径。?
4. 代码实现
import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;
import org.openqa.selenium.chrome.ChromeOptions;
public class FindDataDemo {
private void seleniumProcess() {
String uri = "http://tools.2345.com/rili.htm";
// 设置 chromedirver 的存放位置
System.getProperties().setProperty("webdriver.chrome.driver", "D:/sdks/tools/chromedriver_win32/chromedriver.exe");
// 设置浏览器参数
ChromeOptions chromeOptions = new ChromeOptions();
chromeOptions.addArguments("--no-sandbox");//禁用沙箱
chromeOptions.addArguments("--disable-dev-shm-usage");//禁用开发者shm
chromeOptions.addArguments("--headless"); //无头浏览器,这样不会打开浏览器窗口
WebDriver webDriver = new ChromeDriver(chromeOptions);
webDriver.get(uri);
WebElement webElements = webDriver.findElement(By.id("yi"));
System.out.println("webElements = " + webElements);
System.out.println("webElements.getText() = " + webElements.getText());
String pageSource = webDriver.getPageSource();
System.out.println("webElements = " + pageSource);
webDriver.close();
}
public static void main(String[] args) {
long startTime = System.currentTimeMillis();
FindDataDemo findDataDemo = new FindDataDemo();
findDataDemo.seleniumProcess();
long endTime = System.currentTimeMillis();
System.out.println("(endTime - startTime) = " + (endTime - startTime));
}
}
执行测试程序,可以看到获取到了页面上的内容。
但是通过httpclient访问页面时,发现对应的id的内容是空值。
|