IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> Python爬虫爬取数据 -> 正文阅读

[开发工具]Python爬虫爬取数据

我是Python小白,我会用比较通俗易懂的方法告诉你如何去爬取数据。

一开始,我们需要pycharm(也就是我们编代码的工具),其次我们需要打开我们需要爬取数据的网页,我以鞋子为例。

那么,接下来就开始吧

首先,我们打开某东,搜索鞋子。

?随便点进去一个,找到他的评价

?右击空白处,点检查,

?

?出现以下界面时,我们点Network,

?然后刷新我们找到的京东鞋子界面,就可以看到他出来很多东西,如下图所示

?这时候,我们打开评论,随便找到一个评论,复制一下,然后找到有一个放大镜一样的东西那,点开,然后粘贴我们刚才复制的评论。

?就可以看到这些东西

?我们点开,发现右边Name里面有这些东西,我们直接复制这个URL。

?好了,我们找到了关键的东西。那么接下来我们来编写代码

首先,第一行 是import requests

第二行就是resp=requests.get(‘URL’)[此处URL就是你自己找的]

第三行就是print(resp.text)。

其实拥有这三行代码就可以了,但是呢,我们是在pycharm中爬取的数据,京东只有在浏览器访问时才会允许我们,我们用pycharm访问时,不会给我们,

如下如所示?

为了解决这个问题呢,我们可以让我们的python程序伪装成浏览器,我们需要添加一个东西,请求头,

首先,我们随便打开一个浏览器,右击空白部位,点击检查。

?点进去后我们点击网络,然后刷新一下这个网页。

?我们随便点开一项,看标头里面有一个User-Agent,我们直接复制。

?然后我们再来补充一行代码

headers={‘User-Agent’:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50’}//此处这个是我找的,你们找的是什么就粘贴什么。

get函数里面最后加一个headers=headers。

-------------------------------------------------------------------------------------------

下面是代码模板

import requests
headers={'user-agent': '你自己找的user-agent'}
resp=requests.get('你自己想要爬取数据的网页URL',headers=headers)
print(resp.text)

----------------------------------------------------------------------------------------

下面是我找的一个(可以直接复制粘贴)

import requests
headers={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.6241 SLBChan/30'}
resp=requests.get('https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10335871588&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1',headers=headers)
print(resp.text)

结果就是这个,我随便截了一小部分。

?总结起来,只有三点,第一点,写好代码模型,第二点,找到URL,第三点,找到User-agent。

最后,给初学者一个用python创建.txt文档的代码

fp=open('D:/yyds.txt','a+')
print('helloworld',file=fp)
fp.close()

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-10-17 12:11:26  更:2021-10-17 12:11:56 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 23:01:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码