| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 初学使用Python编写网络爬虫-Day1(自留用) -> 正文阅读 |
|
[Python知识库]初学使用Python编写网络爬虫-Day1(自留用) |
本系列内容均参考于教程:网络爬虫是什么 (biancheng.net) 为自留用,用于在将来的学习中温故而知新 今日内容:爬虫程序的初步认知和简单爬虫程序的编写 1.什么是爬虫程序 网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。 2.编写爬虫的流程 爬虫程序与其他程序不同,它的的思维逻辑一般都是相似的, 所以无需我们在逻辑方面花费大量的时间。下面对 Python 编写爬虫程序的流程做简单地说明:
?3.爬虫程序的编写 3.1:获取响应对象并输出响应信息 代码部分:(这里获取的是我的个人bilibili主页) ?输出部分:(内容过多所以折叠) ?4.常用方法总结 1) urlopen() 表示向网站发起请求并获取响应对象,如下所示: urllib.request.urlopen(url,timeout) urlopen() 有两个参数,说明如下:
2) Request() 该方法用于创建请求对象、包装请求头,比如重构 User-Agent(即用户代理,指用户使用的浏览器)使程序更像人类的请求,而非机器。重构 User-Agent 是爬虫和反爬虫斗争的第一步。在下一节会做详细介绍。 urllib.request.Request(url,headers) 参数说明如下:
3) html响应对象方法
4) 编码解码操作 #字符串转换为字节码 string.encode("utf-8") #字节码转换为字符串 bytes.decode("utf-8") |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/16 4:11:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |