| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Python学习笔记 -> 正文阅读 |
|
[人工智能]Python学习笔记 |
一、爬虫学习 网络爬虫:是指按照一定的规则,自动抓取互联网信息的程序或者脚本。 1.requests?的使用: (1) requests的作用:请求页面,并获取页面的内容 代码如下: url = '? ? ?#请求网页地址#? ? ? ?' r = requests.get(url) (2) 发送headers的请求: ①为什么要发送带headers的请求? 发送带headers的请求的目的就为了模仿浏览器访问网页,获取和浏览器一致的内容。 ②那headers从何而来呢? 在浏览器上面,按F12,点击network,找到我们所需要的爬取的数据,点击Headers。 ?代码如下:
通过以上代码对浏览器的网站数据进行爬取,对于有些网页有反爬手段,我们这里选择的是容易爬取的东方财富网。 2.正则表达式的使用: 对于我们爬取了的数据,需要进行提取与分割: 导入 re 包,其中包含了正则表达式以及函数split,compile等等
通过以上代码我们就可以实现对数据的整理处理,得到自己想要的数据,如下: 我们发现数据为一行数据,为了存储到MySQL中,我们利用for循环对数据进行再一次处理:
通过一系列的处理,网页的数据变成了我们期待的样子,再通过第五章的连接MySQL,将我们的数据导入到MySQL中: ?总结: ?爬虫学习刚入门时发现有一定难度,但当真正搞懂爬虫操作也受益匪浅,发现爬虫的乐趣。通过爬虫的学习可以对网页,图片,数据进行批量化提取操作,省去了许多人工操作,其中更加深层的内容还需要深入学习。 ? ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 8:45:48- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |