IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 手把手从0开始学会Python爬虫,从大一初学者视角,带你实现爬虫攥写 -> 正文阅读

[Python知识库]手把手从0开始学会Python爬虫,从大一初学者视角,带你实现爬虫攥写

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

兴趣是最好的导师,有很多人在学习编程的时候被前期枯燥的语法劝退
这篇博客就将带领大家从初学者的视角学习Python 爬虫 发现编程的魅力。

在这里插入图片描述


一、Python爬虫是什么?

一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息
这里给出几个实用的案例:
(1)搜索引擎,例如百度、谷歌等搜索公司利用爬虫收揽网站,将目前信息时代数据变现成商业产品;
(2)舆情分析,例如百度、谷歌、搜狗、微博等排行旁,或者其他类的舆情分析产品;
(3)数据买卖,爬取数据提供给买数据的公司,例如天眼查、西瓜数据等;
(4)数据采集,政府、企业、科研工作者等用户根据需求爬取所需要的数据;
(5)爬取一些自己想要的资源,比如爬取美剧、电影等。
在这里插入图片描述

二、使用步骤

1装入所需要的库

这里使用requests库,requests是非常适合初学者及个人使用的库
这里直接用,pip指令装入pip install requests

可以用pip list 指令查看已装的库
在这里插入图片描述

如果看到requests则代表库已经装好

注:win+r输入cmd回车进入命令行输入以上代码
一般安装python的时候会自动装pip,如果出现pip不是内部或外部指令,应该就是路径问题
最有效简单的方法就是在pip官网下载放入python的Scripts目录下

2.这里直接给出爬虫通用框架

使用爬虫代码框架,可以使程序更稳定,安全

代码如下(示例):

#try except语句用来获取异常
import requests
def getHTMLText(url):#构造函数,url为网址
    try:
        r=request.get(url,timeout=30)
        r.raise_for_status()#如果状态码不是200,则引发HTTPError异常
        r.encoding = r.apparent.encoding#使返回的解码正确
        return r.text#返回文本
    except:
        return "产生异常"
  
if__nema__=="__main__":
     url = "http://www.baidu.com"
     print(getHTMLText(url))

3.requests库的7个主要方法

在这里插入图片描述

对于爬虫来说,运用最多的就是get方法,在后面的文章中,我将给出get方法的详细解读及五个实例

总结

这篇文章只是给出了通用框架及前期的准备,在后面的文章中我会详细的,以最基础的东西开始,教会大家如何使用爬虫。
博主只是一位普通的大一学生,且初次写博客,排版及文笔比较差,如果内容出现错误,欢迎大家指出并改正
以及有对文章的意见,直言不讳。对我批评改正。

**

文中资源来自中国大学Mooc


  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-11-27 09:51:35  更:2021-11-27 09:53:34 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 2:17:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码