| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 网页数据录入Excel?大家伙儿都可以会的程序员范儿解决方案 -> 正文阅读 |
|
[Python知识库]网页数据录入Excel?大家伙儿都可以会的程序员范儿解决方案 |
目录零、前言每位需要坐到电脑前的打工人,似乎无论咱们从事的是什么样的岗位,都离不开要用Excel做表吧?(宇宙的尽头是Excel~) 你的工作中有那种要从自家公司的网站里把数据汇总进Excel表格的活吗?要是自家公司网站做的好(各种的筛选器交互都比较人性化,导出到Excel表格进行分析的工作流设计的比较合理)倒还好,但很多时候这可能都过于理想化了。更多时候咱们会遇到的情况可能是好多数据不好导出,甚至好多东西难以复制,从网页上罗列出的动辄上百条数据中凭借我们可怜的肉眼逐条去查,去把所需的信息元素逐个录入Excel表格,那感觉,真的是:
所以本文还是想介绍一款非代码式操作的免费爬虫工具来帮助解决更多人面对前文背景的这样一类困扰。 一、安装1、使用Chrome浏览器那么要介绍的这款工具软件叫Web Scraper,很容易在Chrome网上应用店搜索到它 步骤一: 点开“扩展程序” 2、使用Edge浏览器使用Edge浏览器安它也很容易(毕竟Edge也使用的Chrome内核) 步骤一: 右上角找到扩展程序,再点击“打开Microsoft Edge加载项” 或者你也可以直接在 Web Scraper官网 点击“install”完成安装。 二、打开安装好后,它的打开方式可能看起来稍微极客一点,但一点也不用害怕。 我们先像下图这样找到“开发者工具”:
看到那个“Web Scraper”了吗?点开它:
三、品个好小好小的🌰我们就以淘宝网为例,假设我就是要获取它首页上所有“猜你喜欢”的商品的价格: 第一步:创建任务为了完成我们这个活,首先要点击下面这个“Create Sitemap”:
第二步:选择元素我们点那个“Add new selector”
上下滚动一下,我们发现所有我们想要的“价格”元素都已自动选中了,之后点击“Done selecting”: (可以点击“Element preview”再检查一下是否我们想要的元素都被自动选中了) 同时这里要把“multiple”勾选上以获取所有的价格信息: 第三步:数据爬取
程序执行完,点击“refresh”刷新一下应该就可以看到结果: 不过,假设我们把前面的任务改为“淘宝‘连衣裙’品类商品首页所有商品的价格”实证直到这步都是没有问题的,每一步的操作逻辑和上面一致: 第四步:导出数据很尴尬,不过照理来说,我们应该到了这第四步数据导出了 看到数据被正常爬取出来了的话,点这个“Export data”以完成数据导出到Excel:
四、整个稍微大点的🌰上面的例子差不多描述了一下软件的大体使用逻辑,我想还显而易见的存在的一个问题是,我们要做的excel表很少会只有一栏数据,那如果我们要拉多栏数据要怎样呢?比如还是淘宝连衣裙品类商品,我们既要获取商品价格,也要获取商品名称,这个基本需求要怎么来实现呢? 第一步:创建任务这一步和上面的没啥两样: 第二步:选取父级元素在选取元素这一步,我们可以发现价格也好,名称也好都在下面这个黄框里,整个网页的商品呈现区其实就是以这样的元素所堆成的:
调整为Element类型后,我们可以注意到下方“Parent Selector”这里多了一层。哦对了,因为我们要取多个元素,所以还是记得把multiple选上。 第三步:选取子级目录在选好添加好父级元素后,我们点进我们加的这个父级元素“dress”中:
第四步:选取所要信息由于我们要商品名称和价格, so,把名称选上:
因而我们需要回到root那一级,点击“data preview”看下我们最终会获取到什么样的信息:
第五步:数据爬取这一步当然与上面那个小例子别无二致:
第六步:导出数据同上面那个小🌰:
本篇文章介绍了一下图形化界面爬虫工具web scraper的基础使用,若大家有进一步的需要,笔者也愿进一步深下去给大家讲解更多“爬法”,嘻嘻,先这样,下篇见? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 16:23:09- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |