[开发测试] 【selenium爬虫】 selenium自动化爬取京东图书信息

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发测试 -> 【selenium爬虫】 selenium自动化爬取京东图书信息 -> 正文阅读

[开发测试]【selenium爬虫】 selenium自动化爬取京东图书信息

一、题目要求:搜索京东图书页，自动点击详情页进入，爬取数据信息并且存储到csv中

二、解题思路：

1、需要下载一个chromedriver.exe。下载地址：ChromeDriver Mirror
注意：需要对应自己谷歌的版本，找一个版本相近的即可，可以复制chromedriver.exe文件的路径并加入到电脑的环境变量中去，方便以后使用。

2、程序运行前需要将chromedriver.exe文件导入到你的程序中


3、导入程序运行所需要的包

from selenium import webdriver   //自动化爬取
import time     //用于程序休息，防止反爬
import numpy as np   //这里所引入是为了随机数的产生

4、selenium一些基本操作

定位元素：

1)? find_element_by_css_selector：根据css定位

2）find_element_by_class_name：根据class定位

3)? find_element_by_id：根据id定位

4)? find_element_by_link_text：根据链接的文本来定位??

5)? find_element_by_name：根据节点名定位

6)? find_element_by_xpath：使用Xpath进行定位

注：如果要提取一列相同指标，则把element改为elements，定位所有符合条件的元素，返回一个List。

???????????? find_elements_by_xpath

?????? ② 自动化函数

_element.send_keys(‘’)：传入数据

_element.clik()：鼠标点击_element相关的要素

driver.execute_script(js语句)：执行js语句

time.sleep(): 导入time模块，最好设置随机等待时间

driver.back()：返回上一页

?????? ?元素的提取：selenium使用定位后的_element.text提取文本；使用定位后的_element.get_attribute(‘属性名’)提取属性信息。

5、定义函数

1、定义一个首页信息，搜索图书内容，进入你要爬取的就界面

2、对于有些页面是动态加载出来的，可以使用自动化实现下拉的操作

3、在首页先进行爬取每个图书的链接，用于后面进入详情页爬取相关信息

4、进入详情页爬取数据，对于有些空的值进行抛出异常

from selenium import webdriver
import time
import numpy as np


driver=webdriver.Chrome('chromedriver.exe')
url='https://www.jd.com/?cu=true&utm_source=www.hao123.com&utm_medium=tuiguang&utm_campaign=t_1000003625_hao123mz&utm_term=4827d256d0214a0483a2ad63c3487d77'

listss=[]

# 获取首页信息，搜索图书内容
def in_data():
    # 传入数据，并实现转跳
    driver.get(url)  # 获取网页
    jd_input = driver.find_element_by_xpath('//*[@id="key"]')  # 返回的是一个_element对象
    jd_input.clear()  # 清除input原本存在的数据
    jd_input.send_keys('图书')
    jd_commit = driver.find_element_by_xpath('//*[@id="search"]/div/div[2]/button/i')
    jd_commit.click()
    down_scroll(driver)


#实现网页的下拉
def down_scroll(driver):
    old_hight=driver.execute_script('return document.body.scrollHeight')
    control=True

    while control:
        time.sleep(np.random.randint(1, 3))
        driver.execute_script('scroll(0,10000)')
        time.sleep(np.random.randint(2,3))
        new_hight=driver.execute_script('document.body.clientHeight')
        if old_hight==new_hight:
            control=False
        else:
            old_hight=new_hight
    get_data()

lists=[]
def get_data():
    # 形成各本书的超链接list

    book_li = driver.find_elements_by_xpath('//*[@id="J_goodsList"]/ul/li')
    for temp_li in book_li:
        time.sleep(np.random.randint(1, 3))
        temp_href = temp_li.find_element_by_xpath('./div/div[3]/a').get_attribute('href')
        temp = os.path.join(temp_href)
        time.sleep(np.random.randint(1, 3))
        print(temp)
        lists.append(temp)

#
#进入图书详情页
def  values(lists):
    # 新的详情页
    for url in lists:
        driver1=webdriver.Chrome('chromedriver.exe')
        driver1.get(url)
        down_scroll(driver1)
        # 注意获取文本的方式
        try:
            book_name=driver1.find_element_by_xpath('/html/body/div[8]/div/div[2]/div[1]').text
            price=driver1.find_element_by_xpath('/html/body/div[8]/div/div[2]/div[4]/div/div[1]/div[2]/span[1]/span[2]').text
            pinjia=driver1.find_element_by_xpath('//*[@id="comment"]/div[2]/div[1]/div[1]/div').text
            lis=[book_name,pinjia,price]
            listss.append(lis)
            print(book_name,price,pinjia)

        except Exception as a :
            print(a)


if __name__ == '__main__':
    in_data()
    values(lists)

开发测试最新文章

pytest系列——allure之生成测试报告（Wind

某大厂软件测试岗一面笔试题+二面问答题面试

iperf 学习笔记

关于Python中使用selenium八大定位方法

【软件测试】为什么提升不了？8年测试总结再

加:2022-01-01 14:14:47 更:2022-01-01 14:16:23

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/13 7:25:08-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码