IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 爬取猫眼TOP100源码分享,简单易学,请收藏!!!!!1 -> 正文阅读

[Python知识库]爬取猫眼TOP100源码分享,简单易学,请收藏!!!!!1

本文利用requests及正则表达式完成,以文档形式保存,适合练习,成长的路上我们共同加油!!!
如网页访问报错,或者无内容,网站反爬限制,请更换代理或者更换网络IP,进行测试。(关注后,上篇文档有代理分享)

# 1、抓取单页内容
# 利用requests 请求目标站点,得到单个网页的HTML代码,
# 2.正则表达式分析
# 利用HTML代码分析得到电影的名称。主演,上映时间。评分,图片连接。
# 3.保存到文件。
# 通过文件的形式将结果保存,每一步电影结果json字符

############
import json
import requests
import re
import urllib3
import json
urllib3.disable_warnings()
from requests.exceptions import RequestException? # 导入异常处理库
headers = {
??? 'User-Agent': 'Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3'
}
def get_one_page(url):? # 定义一个函数,获取一页的内容
??? try:
??????? response = requests.get(url, headers=headers, verify=False)
??????? response.encoding = 'UTF-8'? # 以后爬取显示乱码,添加上
??????? if response.status_code == 200:? # 判断网页是否读取正常
??????????? return response.text? # 返回内容
??????? else:
??????????? return None
??? except RequestException:? # 如果出现异常,就退出
??????? return None
def parse_one_page(html):
??? pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
???????????????????????? + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
???????????????????????? + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)? # 编译一个表达式
??? items = re.findall(pattern, html)
??? for item in items:
???????? yield {'排名': item[0],
??????????????? '图片': item[1],
?????????????? '标题': item[2],
?????????????? '主演': item[3].strip()[3:],
?????????????? '上映时间': item[4].strip()[5:],
?????????????? '评分': item[5] + item[6], }
def Write_file(content):
?? with open('E:\猫眼result.txt', 'a', encoding='UTF-8') as f:
?????? f.write(json.dumps(content, ensure_ascii=False) + '\n')
?????? f.close()
def main(offet):? # 定义一个函数
??? url = 'https://maoyan.com/board/4?offset=' + str(offet)? # 定义URL
??? html = get_one_page(url)? # 打印网页内容
??? parse_one_page(html)
??? for item in parse_one_page(html):
??????? Write_file(item)
if __name__ == '__main__':
????? for i? in range(10):
??????????? main(i * 10)

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-16 19:36:13  更:2021-10-16 19:38:29 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 21:09:12-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码