IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 移动开发 -> python爬取淘宝iphone11在售信息 -> 正文阅读

[移动开发]python爬取淘宝iphone11在售信息

分析淘宝网址的规律

在淘宝网址输入iphone11并查询

?

复制前4页的网站如下

iphone11 - 商品搜索 - 淘宝

iphone11 - 商品搜索 - 淘宝 #60

iphone11 - 商品搜索 - 淘宝 #60

iphone11 - 商品搜索 - 淘宝

可以发现 page=&s= 在改变其他相同 定义url更加简单,从第二页开始page递增2,参数s递增60,所以构建url语句

urls = ['iphone11 - 商品搜索 - 淘宝']

urls=['iphone11 - 商品搜索 - 淘宝{}&s={}&click=0'.format(str(i),str(j)) for i in range(3,11,2) for j in range(56,237,60)]

分析淘宝html仪器

?寻找当前每家店铺所在仪器 div,

?找到想要爬取的字段div

?

输入爬取页面的路径内容

prices=soup.select('div.gl-i-wrap>div.p-price')
ads=soup.select('div.gl-i-wrap>div.p-name')
shops = soup.select('div.gl-i-wrap>div.p-shop')

for price,ad,shop in zip(prices,ads,shops):
? ? i=i+1
? ? data={
? ? ? ? 'index':i,
? ? ? ? 'price':price.get_text().split()[0],
? ? ? ? 'shop':shop.get_text().split(),
? ? ? ? 'ad':ad.get_text().strip()
? ? }

完整代码如下:

import requests from bs4 import BeautifulSoup import time import sys

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}

def get_info(url,i): wb_data=requests.get(url,headers=headers) soup=BeautifulSoup(wb_data.text,'lxml')

prices=soup.select('div.gl-i-wrap>div.p-price')
ads=soup.select('div.gl-i-wrap>div.p-name')
shops = soup.select('div.gl-i-wrap>div.p-shop')
for price,ad,shop in zip(prices,ads,shops):
 ?  i=i+1
 ?  data={
 ? ? ?  'index':i,
 ? ? ?  'price':price.get_text().split()[0],
 ? ? ?  'shop':shop.get_text().split(),
 ? ? ?  'ad':ad.get_text().strip()
 ?  }
 ?  print(data)
return i

if name=='main': i = 0 urls = ['iphone11 - 商品搜索 - 淘宝'] for url in urls: i=get_info(url,i)

urls=['https://search.jd.com/Search?keyword=iphone11&wq=iphone11&pvid=9c3dd3ff63fc41e2893763e521450969&page={}&s={}&click=0'.format(str(i),str(j)) for i in range(3,11,2) for j in range(56,237,60)]
for url in urls:
 ?  i=get_info(url,i)

  移动开发 最新文章
Vue3装载axios和element-ui
android adb cmd
【xcode】Xcode常用快捷键与技巧
Android开发中的线程池使用
Java 和 Android 的 Base64
Android 测试文字编码格式
微信小程序支付
安卓权限记录
知乎之自动养号
【Android Jetpack】DataStore
上一篇文章      下一篇文章      查看所有文章
加:2021-10-16 19:45:19  更:2021-10-16 19:47:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 23:01:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码