[Python知识库] Python课程内容回顾

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> Python课程内容回顾 -> 正文阅读

[Python知识库]Python课程内容回顾

Python课程内容回顾

今天Python实训课主要讲了爬虫的相关操作，主要是爬取百度小说西游记的内容和爬取网易云热歌排行榜的音乐：

爬取百度小说西游记

# -*- codeing = utf-8 -*-
# @Time : 2022/4/25 14:38
# @Author : 刘相圳
# @File : model1.py
# @Software : PyCharm
# --- 模拟浏览器向服务器发送请求
'''
软工实训课内容
'''
# 导入该库
import requests
import time
# 1.缺确定待访问网站的url
url = "http://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%224306063500%22}"
# 2.向目标服务器发送请求
resp1 = requests.get(url)
# 3.接收服务器返回的请求资源
# .text  把返回的内容变成字符串
print(resp1)
data1 = resp1.json() # 将返回的内容变成字典
print(data1)
print(type(data1))
titleList = data1["data"]["novel"]["items"]
print(titleList)
for x in titleList:
    url1 = "http://dushu.baidu.com/api/pc/getChapterContent?data={%22book_id%22:%224306063500%22,%22cid%22:%224306063500|"+x["cid"]+"%22,%22need_bookinfo%22:1}"
    time.sleep(1) # 添加休眠时间，防止短时间对服务器访问过于频繁，被服务器鉴定为爬虫程序(防止小型服务器崩溃)
    # print(url1)
    resp2 = requests.get(url1)
    data2 = resp2.json()
    text1 = data2["data"]["novel"]["content"]
    # print(data2)
    print(text1)
    path = "D:\\Desktop\\西游记\\"+x["title"]+".txt"
    with open(path,'w',encoding='utf8') as f:
        f.write(text1)
    print("================",x["title"]+"下载完成！====================")

爬取网易云音乐热歌榜

# -*- codeing = utf-8 -*-
# @Time : 2022/4/25 16:31
# @Author : 刘相圳
# @File : model2.py
# @Software : PyCharm

import requests
from lxml import etree
import time
url = "https://music.163.com/discover/toplist?id=3778678" # 去掉#号  网易云的防爬措施
resp1 = requests.get(url)
body = resp1.text   # print(body)
html = etree.HTML(body)
data1 = html.xpath("//ul[@class='f-hide']/li/a/@href") # 用于解析html中的数据 歌曲id
data2 = html.xpath("//ul[@class='f-hide']/li/a/text()") # 歌名
for i in range(len(data1)):
    url1 = "https://link.hhtjim.com/163/"+data1[i].split("=")[1]+".mp3"
    time.sleep(1)
    # print(url1)
    # print(data2[i]+"---->"+data1[i])
    resp2 = requests.get(url1)
    # print(resp2)
    data3 = resp2.content
    # print(data3)
    path = "D:\\Desktop\\music\\"+data2[i]+".mp3"
    with open(path,"wb") as f:
        f.write(data3)
    print("=============",data2[i]+"下载完成========")