[Python知识库] python爬虫

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python爬虫_1 -> 正文阅读

[Python知识库]python爬虫_1

#-*- codeing=utf-8 -*-

from bs4 import BeautifulSoup  #网页解析，获取数据
import re    #正则表达式，进行文字匹配
import urllib.request,urllib.error    #制定URL,获取网页数据
import xlwt     #进行excel操作的
import sqlite3  #进行sqlite数据库操作

def main():
    #1.爬取网页
    #2.解析数据
    #3.保存数据
    baseurl ="https://movie.douban.com/top250?start="
    data = getData(baseurl)

    savePath = '.\\豆瓣电影Top250.xls'
    saveData(savePath)
#影片链接的规则
findLink = re.compile(r'<a href="(.*?)">')    #创建正则表达式对象，表示规则(字符串的模式)
#影片图片
ImagLink = re.compile(r'<img .* src="(.*?)"(.*?)/>',re.S)        #让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*?)</span>',re.S)
#影片评分
findPingfen = re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
#评分人数
findNumber = re.compile(r'<span>(\d*?)人评价</span>')
#找到概况
findSummary = re.compile(r'<span class="inq">(.*?)</span>')
#找到影片的相关内容
findInfo = re.compile(r'<p class="">(.*?)</p>',re.S)
# 爬取网页
def getData(baseurl):
    datalist = []
    # 逐一解析数据
    for i in range(0,1):      #调用获取页面信息的函数 10次
        url = baseurl+str(i*25)
        html = askURL(url)      #保存获取到的网页的源码
        #注意解析数据
        soup = BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):    #查找符合要求的字符串，形成列表
            #print(item)     #测试：查看item全部信息
            item = str(item)

            data1 = []    #保存一部电影的所有信息
            #获取影片的超链接
            link = re.findall(findLink,item)[0]
            data1.append(link)
            img = re.findall(ImagLink,item)[0]
            data1.append(img)
            title = re.findall(findTitle,item)
            if(len(title)==2):
                ctitle = title[0]                   #添加中文名
                data1.append(ctitle)
                otitle = title[1].replace("/","")   #去掉无关的符号
                data1.append(otitle)                 #添加外国名
            else:
                data1.append(title[0])
                data1.append("")               #留空

            info =re.findall(findInfo,item)[0]
            info = re.sub(r'<br(\s+)?/>(\s+)?',' ',info)
            data1.append(info.strip())
            summary = re.findall(findSummary,item)
            if len(summary) != 0:
                sum1 = summary[0].replace("。","")
                data1.append(sum1)
            else:
                data1.append(" ")
            pf = re.findall(findPingfen,item)[0]
            data1.append(pf)
            num = re.findall(findNumber,item)[0]
            data1.append(num)
            datalist.append(data1)
    print(datalist)
    return datalist


#得到一个指定URL的网页的内容
def askURL(url):
    head = {
        #模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 94.0.4606.81Safari / 537.36"
    }
    # 用户代理目的是告诉豆瓣服务器，我们是什么类型的机器、浏览器（本质上是告诉浏览器，我们可以接收什么水平的文件内容）
    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        responce = urllib.request.urlopen(request)   #用于打开一个远程的url连接,并且向这个连接发出请求,获取响应结果
        html = responce.read().decode('utf-8')
        #print(html)
    except urllib.request.URLError as e:
        if hasattr(e,"code"):
           # print(e.code)
            pass
        if hasattr(e,"reason"):
            pass
            #print(e.reason)
    return html


# 保存数据
def saveData(savePath):
    pass

if __name__ == '__main__':
    main()

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-10-20 12:27:01 更:2021-10-20 12:29:19

360图书馆购物三丰科技阅读网日历万年历 2026年1日历

-2026/1/3 12:26:58-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码