IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 菜比肉贵?我用Python带你了解了解 -> 正文阅读

[Python知识库]菜比肉贵?我用Python带你了解了解

段时间,菜市场出现了一个奇特的现场:?菜比肉贵

以北京为例,像?猪肉的价格基本上从年初的 25块/斤 逐步下降到现在的 10块/斤 。

猪肉价格走势

而一些蔬菜比如?油麦菜从年初的 2.5元/斤 到现在的 4.5元/斤 ,高的时候能有 8元/斤 ;再比如?菠菜从年初的 1.7元/斤 到现在的 4元/斤 ,高的时候也能到 7-8元/斤 。

油麦菜价格走势

广大网友直呼:?以前没钱吃肉,现在没钱吃菜!

我们知道前年 50块一斤 猪肉(也是?离谱),现在可以买 5斤 ,于是就有了下面这张对比图:

以前没钱吃肉,现在没钱吃菜

那么,蔬菜价格目前到底是什么情况呢?全年一般又是什么样的走势呢?

今天,我们就用 Python 采集一下?北京新发地菜市场的?价格行情来一起了解下!

1. 网页分析

目标网站:北京新发地

网址信息:http://www.xinfadi.com.cn/priceDetail.html

我们通过?翻页(下一页)查看后续数据,但是发现地址栏 url 没变,所以是动态加载的,那么老规矩:?F12开发者模式—>Network—>XHR,然后?翻页可以找到数据请求信息如下:

最终,我们确认请求接口地址及请求方式与信息如下:

请求类型: post

url =?r'http://www.xinfadi.com.cn/getPriceData.html'

# 请求参数如下,其中page为页码

FormData={

'limit':?20,

'current': page,

'pubDateStartTime':?'2021/01/01',

'pubDateEndTime':?'2021/10/30',

'prodPcatid':?'',

'prodCatid':?'',

'prodName':?'',

}

确定以上信息后,我们就可以简单的写代码进行数据采集了!

2. 数据采集

由于请求到的数据是 json 格式,比较好处理,我们直接上代码(完整代码)。

如果对代码不是很了解,可以加笔者好友或者加咱们交流群讨论!

importrequests

importpandas?aspd

fromtqdm?importtqdm

headers = {

"Accept-Encoding":?"Gzip",

"User-Agent":?"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36",

}

dfList = []

url =?r'http://www.xinfadi.com.cn/getPriceData.html'

forpage?intqdm(range(?1,?5373)):

FormData={

'limit':?20,

'current': page,

'pubDateStartTime':?'2021/01/01',

'pubDateEndTime':?'2021/10/30',

'prodPcatid':?'',

'prodCatid':?'',

'prodName':?'',

}

r = requests.post(url, data=FormData, headers=headers)

data = r.json

dataList = data[?'list']

df = pd.DataFrame(dataList)

dfList.append(df)

df = pd.concat(dfList)

df.to_excel(?r'菜品历史价格行情.xlsx',index=?None)

采集进度

可以看到,其实该网站并没有反爬,但是我们用最简单的这种采集方式花了?2小时23分钟,属实有点久。

那么怎么可以加速呢??进程、线程与携程等方式可以加速,关于这方面的知识与应用我们会在后续进行专题介绍哈,这里先预告一下。

最终,我们采集到 10万 多条数据如下:

后台回复 955 可以在 菜比肉贵 文件夹领取!

数据预览

以上就是本次全部内容,由于菜品类型较多,这里不做展开处理,大家可以自行下载研究哈。

粉丝福利,点击免费领取

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-11-11 12:39:47  更:2021-11-11 12:41:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 22:20:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码