IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Python-网络思维-2.1网络爬虫基础 -> 正文阅读

[Python知识库]Python-网络思维-2.1网络爬虫基础

这是一个爬取电影票房的案例,主要是通过 中国电影票房 获取电影票房信息,将获得到的内容保存至 .txt 文件。

# 首先我们需要导入 requests 库
import requests
# 导入 BeautifulSoup 库
from bs4 import BeautifulSoup
url = 'http://58921.com/alltime?page='
#网页基本url,需要在后面连接页面号
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'
    }
aulist=[]#存放所有电影信息的二维列表
def movie_get():
#请在下面的 Begin-End 之间按照注释中给出的提示编写正确的代码

#######################  begin ###########################
# 通过 for 循环的方式,修改 url 的链接,使得程序可以访问多个页面
# 爬取两个页面的内容,解析出排名、片名、年份,存入aulist列表
    for i in range(2):
        r = requests.get(url=url+str(i), headers=headers)
        r.encoding = 'utf-8'
    # 解析 requests 返回的响应结果
        soup=BeautifulSoup(r.text,"lxml")      
        ltr=soup.find_all("tr")#找到所有电影(表格行)
        for tr in ltr:
            ltd=tr.find_all("td")#找到行内所有单元格
            if len(ltd)==0:#如果无内容,访问下一行
                continue
            sli=[]#初始化一维列表,用来存放一行数据
            for i in [1,2,6]:#只提取排名,片名,年份
                sli.append(ltd[i].text)#读取单元格内容
            aulist.append(sli)#二维列表增加一行
 
######################## end ############################

#请在下面的 Begin-End 之间按照注释中给出的提示编写正确的代码
def movie_write():
########################begin###########################
#保存到当前目录下的movies.txt文件, 
    with open('movies.txt','w') as f1:
        for x in aulist:
            f1.write(x[0]+'|'+x[1]+'|'+x[2]+'\n')
      
######################## end ###########################
movie_get()
movie_write()            

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-12-10 11:01:17  更:2021-12-10 11:03:02 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 4:43:16-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码