Python爬取站长素材中免费简历模板

1. requests模块

1.1 模块介绍

requests是使用Apache2 licensed 许可证的HTTP库，比urllib2模块更简洁
是python中原生的一款基于网络请求的模块，简单便捷，功能强大，效率高。

1.2环境安装

pip install requests

1.3使用步骤

指定url（同时进行UA伪装和请求参数处理）
发起请求
获取响应数据
持久化存储

2.xpath解析

2.1 xpath解析原理：

   实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。
   调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

2.2 环境安装：

    pip install lxml

2.3 实例化一个etree对象：from lxml import etree

 将从互联网上获取的源码数据加载到该对象中: etree.HTML('page_text')

2.4 xpath表达式

/和//:前者表示一个层级，后者表示多个层级
属性定位：//div[@class='city'] tag[@src="value"]
索引定位：//div[@class="top"]/li[3] 索引是从1开始的。
取文本：
	 /text() 获取的是标签中直系的文本内容
	 //text() 标签中非直系的文本内容（所有的文本内容）
取属性：/@src

3.format函数的使用

Python2.6 开始，新增了一种格式化字符串的函数 str.format()，它增强了字符串格式化的功能。基本语法是通过 {} 和 : 来代替以前的 % 。
format 函数可以接受不限个参数，位置可以不按顺序。
eg:

	addr="中国{}".format("辽宁大连")
	print(addr)
	#结果：中国辽宁大连
	
	addr1="{2}{0}{1}".format("辽宁","大连","中国")
	print(addr1)
	#结果：中国辽宁大连

	print("国家:{country}, 省份:{pro},城市:{city}".format(country="中国", pro="辽宁",city="大连"))
	#结果：国家:中国, 省份:辽宁,城市:大连

4.实例

4.1 导入要用的模块

	import requests
	from lxml import etree
	import os

4.2 创建文件夹

	#创建一个文件夹
    if not os.path.exists('./ResumeLibs'):  # 如果不存在
        os.mkdir('./ResumeLibs')

4.3 确定headers与url

	headers = {
        'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'

    }
     url = 'http://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&issale=&classID=864&page={}'

4.4 主体代码

    for pageNum in range(1,5):  #页码可自己设置（这里取1,2,3,4）
        new_url =url.format(pageNum)
        page_text = requests.get(url=new_url,headers=headers).text #获取响应数据.text返回的是字符串形式的响应数据

        tree = etree.HTML(page_text)
        div_list = tree.xpath('//div[@id="container"]/div')
        print(div_list) #在此打印确认是否爬取到想要的element
        for li in div_list:
            resume_src = 'http:'+li.xpath('./a/@href')[0]  #注意原网站爬取到的属性无"http:"            
            resume_name = li.xpath('./a/img/@alt')[0]+'.zip'

            #对每个简历页面发起请求
            detail_text = requests.get(url=resume_src, headers=headers).text
            tree1 = etree.HTML(detail_text)
            #解析出下载链接
            download_src = tree1.xpath('//div[@class="clearfix mt20 downlist"]/ul/li[1]/a/@href')[0]

            #对下载链接发起请求，  content返回的是二进制形式的图片数据
            down_load_resume = requests.get(url=download_src, headers=headers).content
            down_load_path = './resumelibs/' + resume_name

            with open(down_load_path,'wb') as fp:
                 fp.write(down_load_resume)
                 print(resume_name,'over！！！')

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-08-19 12:01:31 更:2021-08-19 12:01:48

360图书馆购物三丰科技阅读网日历万年历 2025年12日历

-2025/12/1 17:39:01-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码