IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> python爬虫招聘网站(智联) -> 正文阅读

[开发工具]python爬虫招聘网站(智联)

爬虫目标

要求:搜索“大数据”专业,爬相关公司的招聘信息。列数不少于10列,行数不少于3000 。

目标:搜索“大数据”,爬取智联招聘 北京上海广州深圳天津武汉西安 职位名称,企业名称,薪资,什么市(区),学历要求,经验要求,公司规模,公司性质,工作类型,详情页链接https

具体过程

登录网站,搜索大数据,右键查看网页源代码
在这里插入图片描述
Ctrl+F搜索大数据工程师,发现数据都在网页源代码中
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
基本思路有了,可用正则直接在源码里匹配得到数据,也可以打开开发者工具抓包分析接口用scrapy爬。这篇博客用正则表达式匹配。
在这里插入图片描述
pycharm响应成功。
在这里插入图片描述
然后用正则写代码就行了。

源码

import re
import requests
import time
headers = {'User-Agent': '登陆后自己的user-agent',
        'Cookie':'登陆后自己的cookie'   }
for page in range(1,28):
    #北京上海广州深圳天津武汉西安的url
    url=f"https://sou.zhaopin.com/?jl=854&kw=%E5%A4%A7%E6%95%B0%E6%8D%AE&p={page}"
    time.sleep(5)
    #停顿5秒
    response = requests.get(url, headers=headers).text
    for i in range(30):
    #每页有最多30条数据
        name = re.findall(r'"matchInfo":.*?"name":"(.*?)"', response)[i]  #工作名称
        companyName = re.findall(r'"companyName":"(.*?)"', response)[i]
        cityDistrict=re.findall(r'"cityDistrict":"(.*?)"',response)[i]
        education=re.findall(r'"education":"(.*?)"',response)[i]  #学历
        salary60=re.findall(r'"salary60":"(.*?)"',response)[i]  #薪资
        workingExp=re.findall(r'"workingExp":"(.*?)"',response)[i]  #经验要求
        property=re.findall(r'"property":"(.*?)"',response)[i] #公司性质
        companySize=re.findall(r'"companySize":"(.*?)"',response)[i] #公司规模
        workType = re.findall(r'"workType":"(.*?)"', response)[i] #工作类型
        positionURL=re.findall(r'"positionURL":"(.*?)"',response)[i]#详情页链接
        f = open('zhilian.csv', 'a', encoding='utf8')
        f.write('{},{},{},{},{},{},{},{},{},{}\n'.format(name, companyName, cityDistrict,education,salary60,workingExp,property,companySize,workType,positionURL))
        f.close()
  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-10-09 16:28:46  更:2021-10-09 16:29:45 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 0:45:46-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码