无界面的谷歌浏览器,之前我们的自动化测试工具是phantomjs,但是这个工具不在进行维护了,所以我们可以使用这个谷歌的工具了。
Vitaly Slobodin是广为使用的无头网站测试框架Phantom.js的维护者(Maintainer),现在他决定放弃这一职责。Slobodin在Google论坛上发帖表示,鉴于Chrome 59推出了无头浏览特性,他认为没有理由再继续维护Phantom.js。可以看的出我们现在其实已经没必要再去学习Phantom了,她的作者都放弃了他,项目都已经封存。
这个东西主要是用在动态页面的时候,比如我们爬取的时候经常会发现chrom打开能看到100张图片,爬虫爬下来却只有20张,这是因为使用了动态加载技术,还有一些页面使用ajax动态刷新,这时候能不能爬取呢,当然可以,分析JS文件,构建请求,发送请求得到JSON回复信息,拿到资源的地址,但是这相当于我们将前端的工作给做了,很烦,所以我们有的时候用无头浏览器直接相当于我们操作浏览器,很nice。缺点是速度慢,优点是简单。
一、selenium介绍
selenium:是python的一个第三方库,对外提供的接口可以操作你的浏览器,让浏览器完成自动化操作
1.1、安装selenium
pip install selenium
1.2、安装chromdriver
要安装符合自己浏览器版本的driver,谷歌浏览器的版本可以从设置->关于chrom看到
http://npm.taobao.org/mirrors/chromedriver/
1.3、测试进行百度的搜索
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
import time
chrome_options = Options()
chrome_options.add_argument('--disable-gpu')
path = r'C:\Users\LoveSS\Desktop\pytest\chromedriver.exe'
service = Service(executable_path=path)
driver = webdriver.Chrome(service=service, options=chrome_options)
url = 'http://www.baidu.com/'
driver.get(url=url)
driver.implicitly_wait(0.5)
search_input = driver.find_element(By.ID, "kw")
search_button = driver.find_element(By.ID, "su")
search_input.send_keys("Selenium")
search_button.click()
time.sleep(10)
driver.quit()
我们发现可以进行搜索。
二、selenium操作
这个网址有着官方文档https://www.selenium.dev/。想要详细学习可以从官方文档入手
2.1、导航
driver.get("https://selenium.dev")
driver.back()
driver.forward()
driver.refresh()
2.2、alert
2.2.1、alert警告框
警告框只有确认按键
driver.find_element(By.LINK_TEXT, "See an example alert").click()
alert = wait.until(expected_conditions.alert_is_present())
text = alert.text
alert.accept()
2.2.2、confirm确认框
可以确认可以取消
driver.find_element(By.LINK_TEXT, "See a sample confirm").click()
wait.until(expected_conditions.alert_is_present())
alert = driver.switch_to.alert
text = alert.text
alert.dismiss()
2.2.3、Prompt 提示框
提示框是有输入框和确认按键的
driver.find_element(By.LINK_TEXT, "See a sample prompt").click()
wait.until(expected_conditions.alert_is_present())
alert = Alert(driver)
alert.send_keys("Selenium")
alert.accept()
2.3、Cookie
2.3.1、添加cookie
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("http://www.example.com")
driver.add_cookie({"name": "key", "value": "value"})
2.3.2、获取命名的cookie
print(driver.get_cookie("foo"))
2.3.3、获取全部cookies
driver.add_cookie({"name": "test1", "value": "cookie1"})
driver.add_cookie({"name": "test2", "value": "cookie2"})
print(driver.get_cookies())
2.3.4、删除cookie
driver.delete_cookie("test1")
2.3.5、删除所有cookie
driver.delete_all_cookies()
2.3.6、lax
当您将cookie sameSite属性设置为 Lax, cookie将与第三方网站发起的GET请求一起发送.
driver.get("http://www.example.com")
driver.add_cookie({"name": "foo", "value": "value", 'sameSite': 'Strict'})
driver.add_cookie({"name": "foo1", "value": "value", 'sameSite': 'Lax'})
cookie1 = driver.get_cookie('foo')
cookie2 = driver.get_cookie('foo1')
print(cookie1)
print(cookie2)
2.4、点击
driver.find_element(By.ID, "su").click()
2.4、发送键位
driver.find_element(By.ID, "su").send_keys("webdriver" + Keys.ENTER)
2.5、清除
driver.find_element(By.ID, "su").clear()
2.6、查询元素
我们一共有这么几种查询方式
class By(object):
"""
Set of supported locator strategies.
"""
ID = "id"
XPATH = "xpath"
LINK_TEXT = "link text"
PARTIAL_LINK_TEXT = "partial link text"
NAME = "name"
TAG_NAME = "tag name"
CLASS_NAME = "class name"
CSS_SELECTOR = "css selector"
res = driver.find_element(By.ID, "su")
print(res.text)
|