| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 网络协议 -> python 爬虫总结 -> 正文阅读 |
|
[网络协议]python 爬虫总结 |
requests模块
对象.名词 --- 属性 对象.动词 --- 方法 response.text
response.content
数据分类非结构化数据:html 处理方法: 正则表达式、 xpath 结构化数据:json、xml等 处理方法:转化为python数据类型 json 模块
json中的字符串都是双引号引起来的如果不是双引号:? ? ? ? ? eval:能实现字符串和python类型的转化 ? ? ? ? replace: 把单引号替换为双引号 ?正则表达式用事先定义好的一些特殊字符,及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑 常用正则的方法:
?原始字符串r,字符串中有\带来的转义效果,r能忽视反斜杠 点号默认情况下匹配不到"\n" "\s" 能够匹配空白字符,不仅能包含空格,还有"\t|\r|\n" 贪婪(.*)非贪婪(.*?)? xml?xpath节点选择?语法? ? ? ? ? ?lxml使用注意点lxml补不全功能会使程序出现错误,使用etree.tostring观察html文件样子 完成校验。 lxml可以接受bytes和str字符串 提取页面数据的思路 ? ? ? ? 先分组, ? ? ? ? 在遍历每一个分组取其中数据 爬虫的工作流程搜索引擎流程抓取网页-> 数据存储-> 预处理 -> 提供检索服务,网站排名 聚焦爬虫流程url list? -> 响应内容 - > 提取数据 -> 入库 ? ? ? /\? ? ? ? ? ? ? ?| ? ? ? |? ? ? ?-? ? ?提取url 需要爬取的数据位置:
格式化字符串
列表推导式
cookie和session
|
|
网络协议 最新文章 |
使用Easyswoole 搭建简单的Websoket服务 |
常见的数据通信方式有哪些? |
Openssl 1024bit RSA算法---公私钥获取和处 |
HTTPS协议的密钥交换流程 |
《小白WEB安全入门》03. 漏洞篇 |
HttpRunner4.x 安装与使用 |
2021-07-04 |
手写RPC学习笔记 |
K8S高可用版本部署 |
mySQL计算IP地址范围 |
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 1:24:28- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |