IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 网页数据录入Excel?大家伙儿都可以会的程序员范儿解决方案 -> 正文阅读

[Python知识库]网页数据录入Excel?大家伙儿都可以会的程序员范儿解决方案

零、前言

每位需要坐到电脑前的打工人,似乎无论咱们从事的是什么样的岗位,都离不开要用Excel做表吧?(宇宙的尽头是Excel~)
在这里插入图片描述

你的工作中有那种要从自家公司的网站里把数据汇总进Excel表格的活吗?要是自家公司网站做的好(各种的筛选器交互都比较人性化,导出到Excel表格进行分析的工作流设计的比较合理)倒还好,但很多时候这可能都过于理想化了。更多时候咱们会遇到的情况可能是好多数据不好导出,甚至好多东西难以复制,从网页上罗列出的动辄上百条数据中凭借我们可怜的肉眼逐条去查,去把所需的信息元素逐个录入Excel表格,那感觉,真的是:

在这里插入图片描述
我想如果是基于上面这种悲惨的而又每天发生的故事背景,在咱们C站查提效方案,那更多的应该都是要介绍爬虫技术了?什么Scrapy包啊,pySpider包啊,beautifulsoup包啊……然后你要是继续想了解说这玩意要怎么掌握呢?人家就只能跟你说,那python你得基本掌握吧,html网页结构得了解吧,CSS检查器怎么也得知道吧,CSS盒子结构得理解吧?咱别的不说,就前面这些东西,网上视频课不得干个几十个小时?那还卷屁啊,这不欺负打工人吗?

所以本文还是想介绍一款非代码式操作的免费爬虫工具来帮助解决更多人面对前文背景的这样一类困扰。

一、安装

1、使用Chrome浏览器

那么要介绍的这款工具软件叫Web Scraper,很容易在Chrome网上应用店搜索到它
请添加图片描述
Chrome网上应用店的进入方法

步骤一: 点开“扩展程序”
请添加图片描述
步骤二: 点开“Chrome网上应用店”
请添加图片描述

2、使用Edge浏览器

使用Edge浏览器安它也很容易(毕竟Edge也使用的Chrome内核)

步骤一: 右上角找到扩展程序,再点击“打开Microsoft Edge加载项”
请添加图片描述
步骤二: 搜索web scraper,找到它并点击“获取”

请添加图片描述

或者你也可以直接在 Web Scraper官网 点击“install”完成安装。

二、打开

安装好后,它的打开方式可能看起来稍微极客一点,但一点也不用害怕。

我们先像下图这样找到“开发者工具”:

请添加图片描述
或者,你也可以点击鼠标右键后点开“检查”:

请添加图片描述
之前若是没调整过,那这个“开发者工具”应该会展现在页面右侧:

请添加图片描述
我们需要把它调整为展示在页面下方以更方便地使用Web Scraper:

请添加图片描述
请添加图片描述

看到那个“Web Scraper”了吗?点开它:

请添加图片描述
很好,这便是这一插件软件的打开方式啦。

三、品个好小好小的🌰

我们就以淘宝网为例,假设我就是要获取它首页上所有“猜你喜欢”的商品的价格:

请添加图片描述

第一步:创建任务

为了完成我们这个活,首先要点击下面这个“Create Sitemap”:
请添加图片描述
然后出现的两栏中,下面一栏填写我们要进行信息提取的网站的网址,上面一栏给你本次任务命个名:

请添加图片描述
点击“Create Sitemap”后会出现下面的界面:

请添加图片描述

第二步:选择元素

我们点那个“Add new selector”

请添加图片描述
看到那个“Select”了吗?点它。而后界面会变成下面这样:

请添加图片描述
可以发现,我们可以选择要提取的页面元素,而我们要提取的是价格,所以就在页面上选中价格部分即可:

请添加图片描述
此时再选中另一个“价格”元素:

请添加图片描述

上下滚动一下,我们发现所有我们想要的“价格”元素都已自动选中了,之后点击“Done selecting”:

请添加图片描述

(可以点击“Element preview”再检查一下是否我们想要的元素都被自动选中了)

同时这里要把“multiple”勾选上以获取所有的价格信息:
请添加图片描述
Id那栏命个名,就可以点“Save selector”了。

第三步:数据爬取

请添加图片描述
可以先点下“Data preview”看看我们会获取到的前几条数据长啥样:

请添加图片描述
检查完毕,我们就在下面这里点这个“Scrape”:

请添加图片描述
再点击这个“start scraping”,而后程序会帮我们爬取全部数据:
请添加图片描述

程序执行完,点击“refresh”刷新一下应该就可以看到结果:
请添加图片描述
额,好吧,翻车了,刷新了n多遍都没有出现结果,判断应该是被淘宝拦截了,【手动捂脸】

不过,假设我们把前面的任务改为“淘宝‘连衣裙’品类商品首页所有商品的价格”实证直到这步都是没有问题的,每一步的操作逻辑和上面一致:

请添加图片描述

第四步:导出数据

很尴尬,不过照理来说,我们应该到了这第四步数据导出了

看到数据被正常爬取出来了的话,点这个“Export data”以完成数据导出到Excel:

请添加图片描述
出现的两种格式均为excel文件格式,我们选择csv吧

请添加图片描述
文件导出以后,就可以用excel看到成果了:

请添加图片描述

四、整个稍微大点的🌰

上面的例子差不多描述了一下软件的大体使用逻辑,我想还显而易见的存在的一个问题是,我们要做的excel表很少会只有一栏数据,那如果我们要拉多栏数据要怎样呢?比如还是淘宝连衣裙品类商品,我们既要获取商品价格,也要获取商品名称,这个基本需求要怎么来实现呢?

第一步:创建任务

这一步和上面的没啥两样:

请添加图片描述

第二步:选取父级元素

在选取元素这一步,我们可以发现价格也好,名称也好都在下面这个黄框里,整个网页的商品呈现区其实就是以这样的元素所堆成的:
请添加图片描述
因此为了获取商品的多维信息,我们需要先把这样的父级结构选出来:

请添加图片描述
同时,要把type类型由Text(文本类型)调整为Element(元素类型):

请添加图片描述
简单理解一下,Element元素这玩意里面可以含一些文本啊,图片啥的,而Text文本类型,这玩意从名字字面上来理解就不具备这样的嵌套属性。

调整为Element类型后,我们可以注意到下方“Parent Selector”这里多了一层。哦对了,因为我们要取多个元素,所以还是记得把multiple选上。
请添加图片描述

第三步:选取子级目录

在选好添加好父级元素后,我们点进我们加的这个父级元素“dress”中:

请添加图片描述
会注意到上方的目录由“_root”进一步变为了“_root / dress”:
请添加图片描述
在这里我们再“Add new selector”选取我们要的各件商品的各块信息就行了。

第四步:选取所要信息

由于我们要商品名称和价格,

so,把名称选上:
请添加图片描述
保存好之后回到这里:

请添加图片描述
我们再“Add new selector”,再把价格选上:

请添加图片描述
并保存:
请添加图片描述
由于我们已经在选取父级元素那里声明过“multiple”,我们要所有同类的父级元素了,这里我们只是在选择要拿的数据是每一个那种父级元素中的哪一部分所展示的数据,所以不需要再勾选“multiple”,也不需要在这一层看到页面上的每个出现的价格及每个出现的商品名称都被我们选中了,因为把获取价格和获取名称这两个动作重复到每个父级元素上是父一级要做的事。

因而我们需要回到root那一级,点击“data preview”看下我们最终会获取到什么样的信息:

请添加图片描述
可以看到是我们要的东西:
请添加图片描述

第五步:数据爬取

这一步当然与上面那个小例子别无二致:

请添加图片描述
请添加图片描述
请添加图片描述
可以看到爬到了我们想要的信息。

第六步:导出数据

同上面那个小🌰:
请添加图片描述

请添加图片描述
请添加图片描述
可以看到数据被正常导进了Excel,而假设我们想要价格在200元以内的,只需用Excel的筛选功能正常来进行一个筛选:
请添加图片描述

本篇文章介绍了一下图形化界面爬虫工具web scraper的基础使用,若大家有进一步的需要,笔者也愿进一步深下去给大家讲解更多“爬法”,嘻嘻,先这样,下篇见?

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-04-26 11:38:17  更:2022-04-26 11:38:34 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 11:33:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计