IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 系统运维 -> 自动化爬虫selenium基础教程 -> 正文阅读

[系统运维]自动化爬虫selenium基础教程

一、前期准备

二、基础操作

1、实例化一个浏览器对象

2、对url发起请求

3、标签定位

4、标签交互

5、点击按钮

6、回退、前进和关闭

7、解析数据

8、执行JavaScript程序

9、实现无可视化界面的操作(无头浏览器)

10、实现规避检测(去除浏览器识别)

11、iframe的处理

12、动作链

13、解决特征识别

不懂或有疑问等任何问题还请私信或评论


一、前期准备

1、在终端进行selenium的安装

pip install selenium

2、下载一个浏览器的驱动程序

这里使用谷歌浏览器,点这下载谷歌浏览器驱动

注意:需要选择对应自己电脑浏览器的版本。

3、将下载好的谷歌浏览器驱动程序移动到当前项目下(可不用移动,填写路径)

二、基础操作

1、实例化一个浏览器对象

from selenium import webdriver

# 实例化一个浏览器对象(传入浏览器的驱动程序)
driver = webdriver.Chrome(executable_path='./chromedriver.exe')

2、对url发起请求

# 对url发起请求
driver.get('URL')

3、标签定位

此处以搜索框为例,获取其id,使用find_element_by_id()对其定位。

# 标签定位
search_input = driver.find_element_by_id('id')

如果是class:

# 标签定位
search_input = driver.find_element_by_class_name('className')

4、标签交互

使用send_keys在搜索框中输入需要搜索的关键字。

# 标签交互
search_input.send_keys('CSDN')

5、点击按钮

点击搜索按钮,在浏览器中使用开发者工具定位搜索按钮的id,click() 进行点击。

# 点击搜索按钮
btn = driver.find_element_by_id('id')
btn.click()

6、回退、前进和关闭

# 回退
driver.back()

# 前进
driver.forward()

# 关闭浏览器
driver.quit()

7、解析数据

# 导包
from selenium import webdriver
from lxml import etree
from time import sleep

# 实例化一个浏览器对象(传入浏览器的驱动程序)
driver = webdriver.Chrome(executable_path='./chromedriver.exe')
# 发起一个指定url请求
driver.get('URL')

# 获取浏览器当前页面的页面源码数据
page_text = driver.page_source

# 解析详细数据
tree = etree.HTML(page_text)
li_list = tree.xpath('xpath路径')
for li in li_list:
    name = li.xpath('以li_list下的xpath路径')[0]
    print(name)

sleep(5)
driver.quit()

8、执行JavaScript程序

这里执行JavaScript程序使得浏览器向下滚动一屏距离。

# 执行一组JavaScript程序
driver.execute_script('window.scrollTo(0,document.body.scrollHeight)')

9、实现无可视化界面的操作(无头浏览器)

# 实现无可视化界面的操作
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')

driver = webdriver.Chrome(executable_path='./chromedriver.exe', options=chrome_options)

10、实现规避检测(去除浏览器识别)

# 实现规避检测
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])

driver = webdriver.Chrome(executable_path='./chromedriver.exe', options=option)

11、iframe的处理

如果定位的标签存在于iframe标签之中,则须使用switch_to.frame(id),这里的id是iframe标签中的id。

# 如果定位的标签是存在与iframe标签之中的则必须通过如下操作再进行标签定位
bro.switch_to.frame('iframeResult')  # 切换浏览器标签定位的作用域
div = bro.find_element_by_id('draggable')

12、动作链

鼠标动作:左键单击按住→拖动→释放

这就是动作链

from selenium import webdriver
from time import sleep
# 导入动作链对应的类
from selenium.webdriver import ActionChains

driver = webdriver.Chrome(executable_path='./chromedriver.exe')

driver.get('URL')

# 如果定位的标签是存在与iframe标签之中的则必须通过如下操作再进行标签定位
driver.switch_to.frame('iframeResult')  # 切换浏览器标签定位的作用域
div = driver.find_element_by_id('id')

# 动作链
action = ActionChains(driver)
# 点击长按指定的标签
action.click_and_hold(div)

# 这里可以不适用循环,看个人爱好
for i in range(5):
    # perform()立即执行动作链操作
    # move_by_offset(x, y):x水平方向  y竖直方向
    action.move_by_offset(20, 0).perform()
    sleep(0.5)

# 释放动作链
action.release()

sleep(2)

driver.quit()

13、解决特征识别

# 解决特征识别
script = 'Object.defineProperty(navigator, "webdriver", {get: () => false,});'
bro.execute_script(script)

不懂或有疑问等任何问题还请私信或评论

  系统运维 最新文章
配置小型公司网络WLAN基本业务(AC通过三层
如何在交付运维过程中建立风险底线意识,提
快速传输大文件,怎么通过网络传大文件给对
从游戏服务端角度分析移动同步(状态同步)
MySQL使用MyCat实现分库分表
如何用DWDM射频光纤技术实现200公里外的站点
国内顺畅下载k8s.gcr.io的镜像
自动化测试appium
ctfshow ssrf
Linux操作系统学习之实用指令(Centos7/8均
上一篇文章      下一篇文章      查看所有文章
加:2022-01-29 23:28:17  更:2022-01-29 23:29:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 7:22:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码