IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python爬虫7:完整的一个爬虫小demo -> 正文阅读

[Python知识库]python爬虫7:完整的一个爬虫小demo

from bs4 import BeautifulSoup
import re
import urllib.request
import xlwt
import sqlite3
import ssl

ssl._create_default_https_context = ssl._create_unverified_context
def main():
#网址就不说了,避免侵权
    baseUrl = "xxxxxx"
    data = getData(baseUrl)
    # saveDataToExcel(data)
    saveDataToDB(data)

def getData(baseUrl):
    headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1",
                "cookie": "__51uvsct__JUTBIqXUbBvBL3hd=1; __51vcke__JUTBIqXUbBvBL3hd=f89fdbc5-1dbf-531a-8d48-608ad53241e3; __51vuft__JUTBIqXUbBvBL3hd=1639549481152; XSRF-TOKEN=eyJpdiI6ImFIK2VFbDg2NXQzbE9lTUZmNGFWMFE9PSIsInZhbHVlIjoiQ1NYU2dZVTV4NlpSM1FNOUVVdHFoZVB1N1daS2NoXC9hZUhOUThhcVZBbnpoYlBNTlwvZWtKUHNoNUdBdWxueTUwIiwibWFjIjoiMzMyMzE1MjRhMDU2MTIzMDBhM2UzZTQwMzJmMTk5YmM3NjgwMTJhMzM5MzZhZjcxM2I0YmRiZTYwNzBjNzM4ZCJ9; 91btlife_session=eyJpdiI6InEybEZiNUFUc3FwT1VMaGE1V3F4Qnc9PSIsInZhbHVlIjoiQ2M0UUY0ZFRDZGFQK3VEU3NyXC9VV1lsZ2dUZWQ2cHd2dVlMWVU4TktMYVZrN3RhTldPUXg4bmpub0ZSeHBmZkMwNHNweEd1Z09yMGQ1OTNld1dEYUdJY3FJOXZPTmpObUFcLzZxQjQ1MHl4Tlp6YW9SYXFBRzhGOGpLK1B6NnRBayIsIm1hYyI6ImVjYjM3OTFmNWI1NTMzMzEzM2Y0MzVmYzM1ZjNkNTNiMjM3ZmEyOTVlYmY5NjhiZDA5ODM5ZDkwNTkwM2RkMzgifQ%3D%3D; __vtins__JUTBIqXUbBvBL3hd=%7B%22sid%22%3A%20%222761075f-9fcf-5878-a827-2fecd1e51f8d%22%2C%20%22vd%22%3A%202%2C%20%22stt%22%3A%2083220%2C%20%22dr%22%3A%2083220%2C%20%22expires%22%3A%201639551364368%2C%20%22ct%22%3A%201639549564368%7D"
               }
    request = urllib.request.Request(url=baseUrl, headers=headers)
    rsp = urllib.request.urlopen(request)

    soup = BeautifulSoup(rsp.read().decode('utf-8'), "html.parser")
    find_all = soup.find_all(class_="main-content")
    res={}
    titleList = {}
    detailList = []
    i=0
    #一级分类
    titles = re.findall(r'style="margin-right: 7px;"></i>(.*?)</h4>', str(find_all[0]))
    for title in titles:
        title_temp={i:title}
        titleList.update(title_temp)

        detail_htmls = re.findall('</i>'+title+'</h4>[\s\S]+?<h4 class="text-gray">', str(find_all[0]))
        if len(detail_htmls)>0:
            dts=re.findall('<strong>(.*?)</strong>',detail_htmls[0])
            urls=re.findall(r'data-original-title="(.*?)"',detail_htmls[0])
            for j in range(0, len(dts)):
                dlt = []
                dlt.append(i)
                dlt.append(dts[j])
                dlt.append(urls[j])
                detailList.append(dlt)
        i+=1
    res.update({"titleList":titleList})
    res.update({"detailList":detailList})
    return res

def saveDataToExcel(data):
    workbook = xlwt.Workbook(encoding="utf-8")
    sheet = workbook.add_sheet("sheet1")
    i=0
    for title in data:
        sheet.write(i,0,title)
        i+=1
    workbook.save("te.xls")

def saveDataToDB(data):
    connect = sqlite3.connect("test.db")
    c = connect.cursor()  #获取游标
    # i=1
    # for title in data:
    #     sql = r"insert into t1 (id,title) values (%d,'%s');"%(i,title)
    #     i+=1
    #     print(sql)
    #     c.execute(sql)
    titleList = data['titleList']
    detailList = data['detailList']
    for key,value in titleList.items():
        sql = r"insert into title (id,title) values (%d,'%s');" %(key, value)
        c.execute(sql)
    for val in detailList:
        sql = r"insert into detail (`name`,titleId,url) values ('%s',%d,'%s');" %(val[1], val[0],val[2])
        c.execute(sql)
    connect.commit()
    c.close()


if __name__ == "__main__":
    main()

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-12-18 15:55:49  更:2021-12-18 15:58:12 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 5:41:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码