IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python学习笔记 -> 正文阅读

[人工智能]Python学习笔记

一、爬虫学习

网络爬虫:是指按照一定的规则,自动抓取互联网信息的程序或者脚本。

1.requests?的使用:

(1) requests的作用:请求页面,并获取页面的内容

代码如下:

url = '? ? ?#请求网页地址#? ? ? ?'

r = requests.get(url)

(2) 发送headers的请求:

①为什么要发送带headers的请求?

发送带headers的请求的目的就为了模仿浏览器访问网页,获取和浏览器一致的内容。

②那headers从何而来呢?

在浏览器上面,按F12,点击network,找到我们所需要的爬取的数据,点击Headers。

?代码如下:

?
url = ' https://data.eastmoney.com/zjlx/000032.html ' headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/96.0.4662.6 Safari/537.36', } 

response = requests.get(url=url, headers=headers) 

page_text = response.text #发送url链接的请求,并返回响应数据

?
?

通过以上代码对浏览器的网站数据进行爬取,对于有些网页有反爬手段,我们这里选择的是容易爬取的东方财富网。

2.正则表达式的使用:

对于我们爬取了的数据,需要进行提取与分割:

导入 re 包,其中包含了正则表达式以及函数split,compile等等

import re

pat = '"klines":\[(.*?)\]'   #正则表达式

data = re.compile(pat, re.S).findall(page_text)   #匹配正则表达式查找

datas = data[0].split('","')     #对查找的数据进行分割

通过以上代码我们就可以实现对数据的整理处理,得到自己想要的数据,如下:

我们发现数据为一行数据,为了存储到MySQL中,我们利用for循环对数据进行再一次处理:

#通过for循环对数据再进行处理分割一行相同类型数据
for i in range(len(datas)):
    stock = list(datas[i].replace('"', "").split(","))

通过一系列的处理,网页的数据变成了我们期待的样子,再通过第五章的连接MySQL,将我们的数据导入到MySQL中:

?总结:

?爬虫学习刚入门时发现有一定难度,但当真正搞懂爬虫操作也受益匪浅,发现爬虫的乐趣。通过爬虫的学习可以对网页,图片,数据进行批量化提取操作,省去了许多人工操作,其中更加深层的内容还需要深入学习。

?

?

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-20 12:29:39  更:2021-10-20 12:32:07 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 8:45:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码