[人工智能] urllib+xpath实现爬取豆瓣个人用户年度观影海报

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> urllib+xpath实现爬取豆瓣个人用户年度观影海报 -> 正文阅读

[人工智能]urllib+xpath实现爬取豆瓣个人用户年度观影海报

基本思路：
1.根据输入的用户id组成完整的请求url地址（注意每次请求的地址不一样）
2.至少发起一次请求去获取用户的记录总页数（同时第一次请求也下载数据）
3.根据获取的总页数每次请求一页，解析出用户名，电影海报图片，电影名并下载至本地
4.每次下载时根据标记日期来判断是否已经将本年度的数据下载完，下载完但如果还继续执行下载则抛出异常

缺陷：
1.由于豆瓣不能直接筛选某一年度的电影，所有如果要下载较早的年度电影，会从最近的年份开始一一匹配，效率较低

# 需求分析，爬取年度观影的电影海报及电影名
# base_url = 'https://movie.douban.com/people/用户的id/collect?'
# 第一页 url = base_url + start=0
# 第二页 url = base_url + start=15
# 第三页 url = base_url + start=30
# 总页数： //span[@class="thispage"]/@data-total-page
# 用户名： //div[@class="side-info-txt"]/h3
import urllib.request
from lxml import etree
import os

def create_request(page,user_id):
    url = f'https://movie.douban.com/people/{user_id}/collect?start={(page-1)*15}'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
    }
    request = urllib.request.Request(url=url,headers=headers)
    return request

def get_content(request):
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    return content

def down_load(content,page,year):
    tree = etree.HTML(content)
    # 解析数据
    user_name = tree.xpath('//div[@class="side-info-txt"]/h3/text()')[0]
    movie_name_list = tree.xpath('//div[@class="grid-view"]/div/div[@class="info"]//em/text()')
    movie_src_list = tree.xpath('//div[@class="grid-view"]//img/@src')
    mark_date_list = tree.xpath('//span[@class="date"]/text()')
    # 判断是否存在目录
    dirs = f'./{user_name}的{year}年度观影海报'
    if not os.path.exists(dirs):
        os.makedirs(dirs)
    # 下载
    for i in range(len(movie_src_list)):
        mark_date = str(mark_date_list[i])
        if(int(mark_date.split('-')[0])<year):
            # 抛出异常
            raise Exception
        elif (int(mark_date.split('-')[0]) == year):
            url = movie_src_list[i]
            name = movie_name_list[i].split('/')[0]
            urllib.request.urlretrieve(url,dirs+'/'+name+'.jpg')
            print(mark_date)
            print(name,url)
    if page == 1:
        total_page = tree.xpath('//span[@class="thispage"]/@data-total-page')
        return int(total_page[0]) if len(total_page)>0 else 0

if __name__ == '__main__':
    # 输入需要爬取的年份 输入需要爬取的用户id
    year = int(input('输入需要爬取的年份:'))
    user_id = input('输入需要爬取的用户id:')
    page = 1
    # 请求对象的定制
    try:
        request = create_request(page, user_id)
        # 获取网页内容
        content = get_content(request)
        # 下载海报数据（如果有）并返回总页数
        total_page = down_load(content, page, year)
        print('总记录页数',total_page)
        if total_page == 0:
            print('Error:当前用户无观影数据')
        elif total_page > 1:
            # 异常
            try:
                for page in range(2, total_page + 1):
                    print(f'当前请求第{page}页')
                    # 请求对象的定制
                    request = create_request(page, user_id)
                    # 获取网页内容
                    content = get_content(request)
                    # 下载海报数据（如果有）
                    down_load(content, page, year)
            except Exception:
                print("当前年度查找完毕")
    except:
        print("当前年度查找完毕")

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-02-01 20:36:39 更:2022-02-01 20:39:37

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/31 4:39:40-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码