IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发测试 -> 爬虫篇——selenium(webdriver)进行用户登录并爬取数据) -> 正文阅读

[开发测试]爬虫篇——selenium(webdriver)进行用户登录并爬取数据)

爬虫篇——selenium(webdriver)进行用户登录并爬取数据

摘要

本文主要介绍了如何通过selenium使用Chormedriver进行用户登录并爬取数据,使用过程中需注意合理使用selenium.webdriver.support.expected_conditions
selenium.webdriver.support.ui.WebDriverWait

(一)创建browser对象

chromedriver.exe的下载地址为:点此进行下载

from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.common import by
from selenium.webdriver.common.action_chains import ActionChains
from lxml import etree

class ChromeCrawl(object):

    def __init__(self):
  
        chrome_options = webdriver.ChromeOptions()
        prefs = {"profile.managed_default_content_settings.images": 2}
        chrome_options.add_experimental_option("prefs", prefs)
        chrome_options.add_experimental_option('excludeSwitches', ['enable-automation']) 
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--no-sandbox')
        chrome_options.add_argument('--disable-gpu')
        
        self.browser = webdriver.Chrome(executable_path="./tools/chromedriver.exe", chrome_options=chrome_options)
        self.browser.set_page_load_timeout(60)
        self.browser.set_script_timeout(60)
        self.wait = WebDriverWait(self.browser, 60)

(二)用户登录

    def login(self):
        username = "*****"
        passwd = "******"

        self.browser.get('https:********login')
        self.browser.implicitly_wait(60)
        
        elem = self.browser.find_element_by_id("username")
        elem.send_keys(username)
        
        elem = self.browser.find_element_by_id("password")
        elem.send_keys(passwd)
        
        button = self.wait.until(expected_conditions.element_to_be_clickable((by.XPATH, '//*****')))# 根据自己的网页进行设置
        ActionChains(self.browser).click(button).perform()
    
        self.wait.until(expected_conditions.presence_of_element_located((by.CLASS_NAME, '******')))

(三)数据爬取

	def crawl(self):
        self.browser.get('https:******')
        self.wait.until(expected_conditions.presence_of_element_located((by.CLASS_NAME, '******')))
        html = etree.HTML(self.browser.page_source)
        tmp = html.xpath('//*****')

by CyrusMay 2022 01 25

一生要有多少的辗转
才能走到幸福的彼岸
——————五月天(青空未来)——————

  开发测试 最新文章
pytest系列——allure之生成测试报告(Wind
某大厂软件测试岗一面笔试题+二面问答题面试
iperf 学习笔记
关于Python中使用selenium八大定位方法
【软件测试】为什么提升不了?8年测试总结再
软件测试复习
PHP笔记-Smarty模板引擎的使用
C++Test使用入门
【Java】单元测试
Net core 3.x 获取客户端地址
上一篇文章      下一篇文章      查看所有文章
加:2022-01-28 12:13:05  更:2022-01-28 12:14:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/18 4:47:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码