IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Python基于Selenium实现爬取京东特定商品 -> 正文阅读

[Python知识库]Python基于Selenium实现爬取京东特定商品

一、小练手

1.自动填充百度网页的查询关键字完成自动搜索

通过查看百度网页的源码找到搜素框的id以及搜素按钮的id

在这里插入图片描述
在这里插入图片描述
获取百度网页

driver = webdriver.Chrome("E:\GoogleDownload\chromedriver_win32\chromedriver.exe")
driver.get("https://www.baidu.com/")

填充搜索框

search=driver.find_element_by_id("kw")
search.send_keys("醉意丶千层梦")

模拟点击

send_button=driver.find_element_by_id("su")
send_button.click()

效果
在这里插入图片描述

2.到指定网站去爬取十句名言

分析网页,含有quote类的标签即为所要的标签
其中text类名言,author为作者。
在这里插入图片描述

代码实现

driver = webdriver.Chrome("E:\GoogleDownload\chromedriver_win32\chromedriver.exe")
# 名言所在网站
driver.get("http://quotes.toscrape.com/js/")
# 表头
csvHeaders = ['作者','名言']
# 所有数据
subjects = []
# 单个数据
subject=[]
# 获取所有含有quote的标签
res_list=driver.find_elements_by_class_name("quote")

# 分离出需要的内容
for tmp in res_list:
    subject.append(tmp.find_element_by_class_name("author").text)
    subject.append(tmp.find_element_by_class_name("text").text)
    print(subject)
    subjects.append(subject)
    subject=[]

效果
在这里插入图片描述

二、爬取京东特定商品

1.分析网页

获取输入框
在这里插入图片描述
点击搜素按钮
在这里插入图片描述

获取展示书籍的列表
在这里插入图片描述
获取每一本书籍
书名
在这里插入图片描述
价格
在这里插入图片描述
跳转到下一页
在这里插入图片描述

2.实现

driver = webdriver.Chrome("E:\GoogleDownload\chromedriver_win32\chromedriver.exe")
driver.set_window_size(1920,1080)
# 京东网站
driver.get("https://www.jd.com/")

# 输入需要查找的关键字
key=driver.find_element_by_id("key").send_keys("python编程")
time.sleep(1)

# 点击搜素按钮
button=driver.find_element_by_class_name("button").click()
time.sleep(1)

# 获取所有窗口
windows = driver.window_handles
# 切换到最新的窗口
driver.switch_to.window(windows[-1])
time.sleep(1)

# js语句
js = 'return document.body.scrollHeight'
# 获取body高度
max_height = driver.execute_script(js)
max_height=(int(max_height/1000))*1000
# 当前滚动条高度
tmp_height=1000
# 所有书籍的字典
res_dict={}

# 需要爬取的数量
num=200
while len(res_dict)<num:
    # 当切换网页后重新设置高度
    tmp_height = 1000
    while tmp_height < max_height:
        # 向下滑动
        js = "window.scrollBy(0,1000)"
        driver.execute_script(js)
        tmp_height += 1000

        # 书籍列表
        J_goodsList = driver.find_element_by_id("J_goodsList")
        ul = J_goodsList.find_element_by_tag_name("ul")
        # 所有书籍
        res_list = ul.find_elements_by_tag_name("li")
        # 把没有记录过的书籍加入字典
        for res in res_list:
            # 以书名为键,价格为值
            # 两种方式获取指定标签值
            res_dict[res.find_element_by_class_name('p-name').find_element_by_tag_name('em').text] \
                = res.find_element_by_xpath("//div[@class='p-price']//i").text
            if len(res_dict)==num:
                break
        time.sleep(2)
        if len(res_dict) == num:
            break
    # 下一页按钮所在父标签
    J_bottomPage=driver.find_element_by_id("J_bottomPage")
    # 下一页按钮
    next_button=J_bottomPage.find_element_by_class_name("pn-next").click()
    # 切换窗口
    windows = driver.window_handles
    driver.switch_to.window(windows[-1])
    time.sleep(3)


# 表头
csvHeaders = ['书名','价格']
# 所有书籍
csvRows=[]
# 书籍
row=[]

# 字典转列表
for key,value in res_dict.items():
    row.append(key)
    row.append(value)
    csvRows.append(row)
    row=[]
# 保存爬取结果
with open('./output/jd_books.csv', 'w', newline='') as file:
    fileWriter = csv.writer(file)
    fileWriter.writerow(csvHeaders)
    fileWriter.writerows(csvRows)

效果

在这里插入图片描述
爬取的数据
在这里插入图片描述

三、总结

爬虫很好用,爬虫工具更好用

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-12-11 15:40:40  更:2021-12-11 15:41:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 4:28:26-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码