IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Day024 - selenium补充 -> 正文阅读

[Python知识库]Day024 - selenium补充

selenium

selenium的前进与后退切换选项卡

前进与后退

from selenium.webdriver import Chrome
import time

# web = Chrome()
# web.get('https://www.baidu.com')
# time.sleep(2)
# web.get('https://www.runoob.com')
# time.sleep(2)
# web.get('https://movie.douban.com/top250')
# time.sleep(2)
# web.back()  # 后退
# web.forward()  # 前进

切换选项卡

web = Chrome()
web.get('https://movie.douban.com/top250')
# a = web.current_window_handle  # 获取当前选项卡
music = web.find_element_by_css_selector('.global-nav-items > ul > li:nth-child(4)')
music.click()
# 切换选项卡
time.sleep(2)
web.switch_to.window(web.window_handles[0])  # 切换到所有选项卡中的第一个
time.sleep(2)
web.switch_to.window(web.window_handles[1])

selenium等待

隐式等待

  • 如果设置了隐式等待时间,那么浏览器对象在通过find_element相关方法获取标签时
    • 如果获取不到,那么会在指定时间内多次尝试获取该标签,超过指定时间才会报错
  • 设置隐式等待时间只需要设置一次,全局有效
web.implicitly_wait(2)  # 隐式等待

显式等待

  • 规定时间内等到满足某个条件

  • 创建等待对象:WebDriverWait(浏览器对象, 超时时间[, 检测时间间隔=500ms])

  • 等待对象.until(条件) - 等到指定条件为True,获取指定标签

  • 等待对象.until_not(条件) - 等到指定条件为False,获取指定标签

  • 常见条件:

    • EC.presence_of_element_located((By.标签获取方式, 获取方式值))

      • 判断某个元素是否被加到dom树里(判断某个标签是否加载到网页中,不一定可见),条件成立事返回标签
    • EC.visibility_of_element_located

      • 判断某个标签是否可见(没有隐藏,并且元素的宽度与高度不等于0),条件成立返回标签
    • EC.text_to_be_present_in_element(())

      • 判断某个标签中的标签内容是否包含了预期的字符串,条件成立返回True
    • EC.text_to_be_present_in_element_value(())

      • 判断某个标签的value属性是否包含了预期的的字符串,条件成立返回True
    • EC.element_to_be_clickable()

      • 判断某个标签是否可点击,条件成立返回标签
wait = WebDriverWait(web, 5)
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'css选择器')))
wait.until(EC.visibility_of_element_located((By.ID, 'id属性值')))
wait.until(EC.text_to_be_present_in_element((By.ID, 'id属性值'), '请登录'))
wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'css选择器')))


writ = WebDriverWait(web, 3)
a = writ.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.widget-channel-links.section-container > a:nth-child(3)')))
a.click()

a = writ.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR,'.widget-channel-links.section-container > a:nth-child(3)'), '女性'))
print(a)  # True

a = writ.until(EC.visibility_of_element_located((By.CSS_SELECTOR, '.links.links--_D4pI > a:nth-child(3)')))
a.click()

页面滚动

max_height = 8900  # 控制台获取的网页最大长度
height = 500  # 设定的每次滚动长度
while True:
    web.execute_script(f'window.scrollTo(0, {height})')  # 调用js实现功能
    height += 500
    time.sleep(1)
    if height > max_height:
        break

网页嵌套爬取解决办法

网易邮箱登录

  • 前端实现网页功能的时候可能出现网页中嵌套网页的现象

  • 如果要在一个网页中嵌套另外一个网页,必须使用iframe标签

  • selenium爬取的时候,通过浏览器对象默认获取到的是最外层的html对应的网页

  • 如果要获取嵌套页面中的内容,必须通过switch_to来切换到iframe里的网页内容

options = ChromeOptions()
options.add_experimental_option("excludeSwitches", ['enable-automation', 'enable-logging'])

web = Chrome(options=options)
web.get('https://mail.163.com/')
# print(web.page_source)
# 查找到iframe标签内容
frame = web.find_element_by_css_selector('#loginDiv > iframe')
# 切换到iframe内的网页
web.switch_to.frame(frame)

input_username = web.find_element_by_class_name('j-nameforslide')
input_username.send_keys('邮箱账号')
input_passwd = web.find_element_by_class_name('dlpwd')
input_passwd.send_keys('邮箱密码')
login_chick = web.find_element_by_id('dologin')
login_chick.click()

爬虫流程

  1. requests + url
  2. requests + url + User-Agent
  3. 如果需要登录:requests + url + User-Agent + Cookie
  4. 找json接口
  5. 使用selenium
  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-14 13:59:04  更:2021-08-14 14:00:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 10:09:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码