[Python知识库] scrapy入门基础

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> scrapy入门基础 -> 正文阅读

[Python知识库]scrapy入门基础

1.scrapy的安装

pip install scrapy

2.scrapy项目的创建

1.首先找到要建立项目的位置

请添加图片描述
在路径前面加上cmd然后回车

2.输入建立scrapy项目的命令

scrapy startproject + 你要起的项目名称
例如：scrapy startproject study

请添加图片描述
出现这个就说明创建成功了，打开pycharm就可以查看项目的结构

3.建立爬虫项目

1.在cmd命令中输入cd 加刚才的项目名

请添加图片描述

2.输入创建爬虫文件的命令

scrapy genspider 爬虫名称  爬取范围，要爬网站的起始url
例如： scrapy genspider baidu www.baidu.com

在这里插入图片描述

3.配置爬虫文件

请添加图片描述
这是建立爬虫文件自带的，起始的url也会自己填进去，也可以自己进行更改，接下来我们就可以在parse函数里面进行爬虫代码的编写了

4.运行爬虫代码

1.写好爬虫代码

请添加图片描述
我们以彼岸图网为例

2.打开命令窗口输入如下指令

scrapy crawl 爬虫名称
例如：scrapy crawl baidu

请添加图片描述可以看到日志文件非常的多，怎样关闭日志呢。

3.关闭日志

进入项目文件打开seetings文件
请添加图片描述
在里面加入如下代码

这样只有级别为WARNING的错误才会出现，看看效果

但是这样的数据还是非常的杂乱，每句都有Selector。

4.消除Selector

请添加图片描述
在我们的语句后面加上.extract()就可以了，看下效果
在这里插入图片描述

5.在pipelines输出爬虫数据

1.传递数据到pipelines

使用yield将数据从爬虫文件传入pipelines
请添加图片描述然后再pipelines将数据输出一下
在这里插入图片描述

在这里插入图片描述

结果运行爬虫的时候报错了，他说只能传递request对象，字典，或者空，而我们传递的是一个列表

2.修改传递数据

在这里插入图片描述

我们把数据变为字典结构再来一次

在这里插入图片描述
结果为空直接跳过了，这里发现我们没有开启pipelines

3.在seetings中找到ITEM_PIPELINES去掉他的注释即可

在这里插入图片描述
后面的值越小，执行越优先，现在我们执行运行爬虫命令

已经可以输出了。

4.解释一下后面的数字

在这里插入图片描述
我们在pipelines中再复制一个类，然后进入settings中，加入新建的类

如果我们输出的结果中出现了wo与ni的那一行字典，说明其先经过了299这个类中
在这里插入图片描述

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-08-23 16:38:21 更:2021-08-23 16:39:30

360图书馆购物三丰科技阅读网日历万年历 2025年11日历

-2025/11/21 13:37:19-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码