| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 网络协议 -> Python爬虫 -> 正文阅读 |
|
[网络协议]Python爬虫 |
python爬虫小记
url : 网址 resp: 响应 decode():字节转字符串 请求过程剖析:
??在页面源代码中看不到数据 熟练使用浏览器抓包工具 http协议:?浏览器与服务器之间数据交互遵守的协议 请求头的重要内容
响应头的主要内容:
反爬请求头
request get()?能向服务器发送了一个请求,请求类型为 HTTP 协议的 GET 方式 post()?也能向服务器发送一个请求,请求类型是 HTTP 协议的 POST 方式 注:在地址栏里输的链接都是get()方式
? 若被默认程序自动进入,需将其源代码中的network的user-agent内容复制粘到原程序,即
注:加上请求头让服务器信服
requests获取百度翻译,变量为s可以自己随意输入(灵活性),为post型不是get. 发送post请求:发送的数据必须是放在字典中,通过data参数传递。json:将服务器返回的内容直接处理成json() 注:URL中的??后面为参数 使用完毕后记得?resp.close() 数据解析与提取 re解析 正则表达式
注:大写为反义
量词:控制面前的元字符出现的次数
贪婪匹配或惰性匹配
re模块 注:可以给正则前加r findall :匹配字符串中所有的符合正则的内容 finditer:匹配字符串中的所有内容(返回的是迭代器) 从迭代器中的拿到的内容需要 .group() search:找到一个结果就返回,返回的结果是match对象 拿数据需要.group() match:是从头开始匹配
预加载正则表达式:
注:如想要提取正则语句中的指定信息,只需把该.*? 括起来,然后加上??p<>?其中<>里为指定信息的名称 e g: 提取信息思路
strip()?:移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符 |
|
网络协议 最新文章 |
使用Easyswoole 搭建简单的Websoket服务 |
常见的数据通信方式有哪些? |
Openssl 1024bit RSA算法---公私钥获取和处 |
HTTPS协议的密钥交换流程 |
《小白WEB安全入门》03. 漏洞篇 |
HttpRunner4.x 安装与使用 |
2021-07-04 |
手写RPC学习笔记 |
K8S高可用版本部署 |
mySQL计算IP地址范围 |
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 6:53:23- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |