IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> scrapy入门基础 -> 正文阅读

[Python知识库]scrapy入门基础

1.scrapy的安装

pip install scrapy

2.scrapy项目的创建

1.首先找到要建立项目的位置

请添加图片描述
在路径前面加上cmd然后回车
请添加图片描述

2.输入建立scrapy项目的命令

scrapy startproject + 你要起的项目名称
例如:scrapy startproject study

请添加图片描述
出现这个就说明创建成功了,打开pycharm就可以查看项目的结构
请添加图片描述

3.建立爬虫项目

1.在cmd命令中输入cd 加刚才的项目名

请添加图片描述

2.输入创建爬虫文件的命令

scrapy genspider 爬虫名称  爬取范围,要爬网站的起始url
例如: scrapy genspider baidu www.baidu.com

在这里插入图片描述

3.配置爬虫文件

请添加图片描述
这是建立爬虫文件自带的,起始的url也会自己填进去, 也可以自己进行更改,接下来我们就可以在parse函数里面进行爬虫代码的编写了

4.运行爬虫代码

1.写好爬虫代码

请添加图片描述
我们以彼岸图网为例

2.打开命令窗口输入如下指令

scrapy crawl 爬虫名称
例如:scrapy crawl baidu

请添加图片描述可以看到日志文件非常的多,怎样关闭日志呢。

3.关闭日志

进入项目文件打开seetings文件
请添加图片描述
在里面加入如下代码
请添加图片描述
这样只有级别为WARNING的错误才会出现,看看效果
请添加图片描述
但是这样的数据还是非常的杂乱,每句都有Selector。

4.消除Selector

请添加图片描述
在我们的语句后面加上.extract()就可以了,看下效果
在这里插入图片描述

5.在pipelines输出爬虫数据

1.传递数据到pipelines

使用yield将数据从爬虫文件传入pipelines
请添加图片描述然后再pipelines将数据输出一下
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

结果运行爬虫的时候报错了, 他说只能传递request对象,字典,或者空,而我们传递的是一个列表

2.修改传递数据

在这里插入图片描述

我们把数据变为字典结构再来一次

在这里插入图片描述
结果为空直接跳过了,这里发现我们没有开启pipelines

3.在seetings中找到ITEM_PIPELINES去掉他的注释即可

在这里插入图片描述
后面的值越小,执行越优先,现在我们执行运行爬虫命令
在这里插入图片描述
已经可以输出了。

4.解释一下后面的数字

在这里插入图片描述
我们在pipelines中再复制一个类, 然后进入settings中,加入新建的类

如果我们输出的结果中出现了wo与ni的那一行字典,说明其先经过了299这个类中
在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-23 16:38:21  更:2021-08-23 16:39:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 10:12:44-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码