IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> 2021-10-03 -> 正文阅读

[开发工具]2021-10-03

1.scrapy框架安装

我用的是pycharm所以直接在pycharm页面中的Terminal输入pip install scrapy
点击Terminal,然后输入pip install scrapy,会看到它在下载,运行完后只要不出现红色字体下载就完成了,若出现红色字体就重试几次,可能是网络原因,其它的我没碰到过,碰到了只能自求多福了
网站上一些大博主首先是下载了Twisted插件,嗯下载网址是:“https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted”
(1) 进入页面搜索(Ctrl+f)twisted
cp34表示Python3.4版本
win32表示32位操作系统

(2) 下载完成后进入终端(wind+r输入cmd回车或者用pycharm的Terminal),输入pip install Twisted-18.7.0-cp36-cp36m-win32.whl
Twisted-18.7.0-cp36-cp36m-win32.whl:文件名(你下载哪个文件就输入哪个文件的文件名,要输入全部路径)

(3) 安装完成后再输入pip install scrapy,回车检测scrapy安装是否成功:在终端输入scrapy,出现以下内容就代表安装成功
在这里插入图片描述

2.创建一个scrapy爬虫项目

(1) 在Terminal输入scrapy startproject 项目文件夹名(你自己随便命名,就像我是作者我喜欢用pycharm里的Terminal,也可以用cmd)
创建好了以后它会提示你接下来怎么做,按照它的提示来
(2) 进入我们刚刚创建好的文件夹(cd 文件名,这里是cd test1)
进入到文件夹输入scrapy genspider example example.com,这第二个example 的意思是你要爬的那个网站的域名,第一个你随便命名,例如我要准备考四级了,但是对英语没有一点兴趣,我就去找英语热词然后我就去爬 英语点津于是创建了一个 scrapy genspider dj language.chinadaily.com.cn
(language.chinadaily.com.cn是域名,example.com不一定要这种格式)
创建完成
(3) 按照路径你可以找到test1文件夹下面有个test1Python文件夹dj.py 文件就在spiders文件夹下面,划重点:dj.py文件就是我们要写的爬虫,是用来专门写爬虫的,pipelines.py 则是专门用来保存的 settings.py 则是用来伪装,接口代理等等,middlewares.py则是一些中间键设定暂时不用管。

(4) 由第三步我们可以知道我们主要编写的就是dj.py,pipelines.py,settings.py三个文件,下面开始搂代码

dj.py
初始:

首先我们需要更改start_urls也就是初始页面网址
在这里插入图片描述
所以将http://language.chinadaily.com.cn/更改为https://language.chinadaily.com.cn/news_hotwords/

然后我们需要在parse(self, response)函数里面写入我们需要爬取的规则,我这用的是xpath
‘./’的意思是在当前目录下
在这里插入图片描述
我们可以运行一下看下效果,这儿不能直接运行代码,要点击Terminal进入到当下的test1下输入
scrapy crawl dj
请添加图片描述
然后你会发现不仅爬出了内容还爬出了许多不需要的,也不能说不需要,作为初学者来说只要自己需要的内容获取到了,就不需要其它的,我开始也是这样,学到到后面就会明白可以从这些信息里面看有没有报错,报错的是什么位置,这个怎么看暂时不说,因为一两句说不完。

那么我们该如何去掉这些不需要的呢?这时候,我们打开settings.py文件这里面的变量名都是用大写开头的
我们选中一行输入
LOG_LEVEL = ‘WARNING’
**
在这里插入图片描述
再在Terminal运行scrapy crawl dj
在这里插入图片描述

3.加载下一页下下页的内容

1.首先分析目标页面的页面规律,大致规律都相同,像tb则是页面数44,回到我们这个目标网站
第一页
第二页
最后一页
由此我们可以得出来url的规律
**‘https://language.chinadaily.com.cn/news_hotwords/page_{}.html’.format(i)*** # i是自己定义的当i=1时得到的和初始页面的内容是一样的,我们知道了最后一页的页码,因此可以用range循环从1到230(注意!python默认从0开始)。

问题来了
怎么把url参数传入到parse()函数里面去并执行?这时候我也不行了只能去找官方文档,不找不知道一找,直接把我看懵了,这里我帮你们简化了就是咱们***scrapy.Request()函数***我们大致常用的参数就三分别是:urlcallbackmeta
其中meta作为传参主要是获取链接详细内容,例如:我想获得我爬到第一条热词的详细信息,这里先不说,怕等下越弄越复杂。
上代码
在这里插入图片描述

效果图

4.保存

1.首先打开settings.py 找到可以用Ctrl+F搜索将这三行的注释打开。
在这里插入图片描述
2.进入pipelines.py在函数里面写入文件保存在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

5.总结

1.scrapy startproject 文件夹名称
2.cd 文件夹名称
3.scrapy genspider 项目名 项目域
4.scrapy crawl 项目名

用英语点津这个网站来入门scrapy框架学习是最简单的,这个网站没有反爬,在实际生活中爬取信息我们不仅需要设置请求信息,还会涉及多线程,异步,爬取资源限制,代理等等,由于这篇文章的目的是引领需要的人进入scrapy框架的学习所以一些深一点的便不在这而展示,后续有时间会持续更新案例,有兴趣的可以相互讨论讨论。

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-10-04 13:02:21  更:2021-10-04 13:02:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 1:54:57-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码