IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python爬虫_1 -> 正文阅读

[Python知识库]python爬虫_1

#-*- codeing=utf-8 -*-

from bs4 import BeautifulSoup  #网页解析,获取数据
import re    #正则表达式,进行文字匹配
import urllib.request,urllib.error    #制定URL,获取网页数据
import xlwt     #进行excel操作的
import sqlite3  #进行sqlite数据库操作

def main():
    #1.爬取网页
    #2.解析数据
    #3.保存数据
    baseurl ="https://movie.douban.com/top250?start="
    data = getData(baseurl)

    savePath = '.\\豆瓣电影Top250.xls'
    saveData(savePath)
#影片链接的规则
findLink = re.compile(r'<a href="(.*?)">')    #创建正则表达式对象,表示规则(字符串的模式)
#影片图片
ImagLink = re.compile(r'<img .* src="(.*?)"(.*?)/>',re.S)        #让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*?)</span>',re.S)
#影片评分
findPingfen = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#评分人数
findNumber = re.compile(r'<span>(\d*?)人评价</span>')
#找到概况
findSummary = re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findInfo = re.compile(r'<p class="">(.*?)</p>',re.S)
# 爬取网页
def getData(baseurl):
    datalist = []
    # 逐一解析数据
    for i in range(0,1):      #调用获取页面信息的函数 10次
        url = baseurl+str(i*25)
        html = askURL(url)      #保存获取到的网页的源码
        #注意解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):    #查找符合要求的字符串,形成列表
            #print(item)     #测试:查看item全部信息
            item = str(item)

            data1 = []    #保存一部电影的所有信息
            #获取影片的超链接
            link = re.findall(findLink,item)[0]
            data1.append(link)
            img = re.findall(ImagLink,item)[0]
            data1.append(img)
            title = re.findall(findTitle,item)
            if(len(title)==2):
                ctitle = title[0]                   #添加中文名
                data1.append(ctitle)
                otitle = title[1].replace("/","")   #去掉无关的符号
                data1.append(otitle)                 #添加外国名
            else:
                data1.append(title[0])
                data1.append("")               #留空

            info =re.findall(findInfo,item)[0]
            info = re.sub(r'<br(\s+)?/>(\s+)?',' ',info)
            data1.append(info.strip())
            summary = re.findall(findSummary,item)
            if len(summary) != 0:
                sum1 = summary[0].replace("。","")
                data1.append(sum1)
            else:
                data1.append(" ")
            pf = re.findall(findPingfen,item)[0]
            data1.append(pf)
            num = re.findall(findNumber,item)[0]
            data1.append(num)
            datalist.append(data1)
    print(datalist)
    return datalist


#得到一个指定URL的网页的内容
def askURL(url):
    head = {
        #模拟浏览器头部信息,向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 94.0.4606.81Safari / 537.36"
    }
    # 用户代理目的是告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上是告诉浏览器,我们可以接收什么水平的文件内容)
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        responce = urllib.request.urlopen(request)   #用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果
        html = responce.read().decode('utf-8')
        #print(html)
    except urllib.request.URLError as e:
        if hasattr(e,"code"):
           # print(e.code)
            pass
        if hasattr(e,"reason"):
            pass
            #print(e.reason)
    return html


# 保存数据
def saveData(savePath):
    pass

if __name__ == '__main__':
    main()
  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-20 12:27:01  更:2021-10-20 12:29:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 20:59:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码