IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> Python scrapy爬取豆瓣 -> 正文阅读

[开发工具]Python scrapy爬取豆瓣

任务一 爬取豆瓣并存储

1-3在命令行中实行,任务爬取豆瓣网的电影名和评分 豆瓣电影 Top 250

1、检查scrapy是否安装那个成功,命令

在cmd
输入scrapy  检查是否成功

2、cd 命令

路径切换到 cd /d E:\demo\shixun_workspase\demo2\zl\10.26

3、创建项目命令

scrapy startproject doubanPro

后面步骤进入到pycharm环境执行打开创建的工程

4、就在pycharm Terminal 下创建爬取器

cls 清屏,ctrl +L ,clear
1、进入douabnPro项目内
cd /d E:\demo\shixun_workspase\demo2\zl\10.26
cd doubanPro
?
2、创建第一个爬取器
scrapy genspider movie www.xxx.com#www.xxx.com占位,域名可以更改
?

5、理解start_url在,掌握执行爬取的命令

start_urls = ['http://www.baidu.com/','http://www.sogou.com/']
# 表示待爬取的初始的urls集合,可以是一个,也可以是多个

6、君子协议

在setting.py中
ROBOTSTXT_OBEY = False ?#君子协议为False
LOG_LEVEL='ERROR' ?#显示错误日志,没有就不显示
#伪装浏览器
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36

7、编写爬取器

理解参数response,理解xpath
 response.xpath('//*[@id="content"]/div/div[1]/ol/li')
 ? ?#进入到谷歌浏览器开发者环境下,copy xpath 表达式
?

8、存储

终端指令持久化爬取数据
(1)基于终端指令
 要求且必须是:只能将parse方法的返回值寻西湖到本地的文本文件中(不能往数据库里存)
    使用字典存每一遍历的道德值,所有的值都放到列表中
    一定用return返回                         
 存储指令:scrapy crawl hzy -o ./news.csv
?

9、代码

在movie中

class HzySpider(scrapy.Spider):
    name = 'movie'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        all_data=[]#存储所有解析到的字典数据
        li_list=response.xpath('//*[@id="content"]/div/div[1]/ol/li')
         #进入到谷歌浏览器开发者环境下,copy xpath 表达式
        for li in li_list:#循环所有的li标签,分别取出电影的名字和得分
            title=li.xpath('./div/div[2]/div[1]/a/span[1]/text()').get()#在li下面取div
            score=li.xpath('./div/div[2]/div[2]/div/span[2]/text()').get()
            #存到字典里
            dic={
                'title':title,
                'score':score,
            }
            #创建一个列表,列表中的每个元素都是字典
            all_data.append(dic)
        return all_data

?10、在pycharm中的terminal下输入

scrapy crawl hzy -o ./news.csv

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-10-29 13:15:51  更:2021-10-29 13:18:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 20:54:39-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码