IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 开发工具 -> 数据解析beautifulsoup爬取中国大学排名数据并保存到数据库(学习内容) -> 正文阅读

[开发工具]数据解析beautifulsoup爬取中国大学排名数据并保存到数据库(学习内容)

?

import requests

from bs4 import BeautifulSoup, builder

import pymysql

def download(url):

? ? headers={

? ? ? ? "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40"

? ? ? ? }

? ? response=requests.get(url,headers=headers)

? ? return response

# 解析网页

def bs(url):

? ? html_text=download(url)

? ? html_text.encoding=html_text.apparent_encoding

? ? soup=BeautifulSoup(html_text.text,'lxml')

? ? #获取分数和省市

? ? sapList=soup.select('#content-box .rk-table tbody>tr')

? ? allsaps=[]

? ? for saptag in sapList:

? ? ? ? sap_dict={}

? ? ? ? sap_dict['province']=saptag.select('td')[2].get_text().strip()

? ? ? ? sap_dict['score']=saptag.select('td')[4].get_text().strip()

? ? ? ? sap_dict['rank']=saptag.select('div')[0].get_text().strip()

? ? ? ? sap_dict['name']=saptag.select('a')[0].get_text()

? ? ? ? sap_dict['type']=saptag.select('td')[3].get_text().strip()

? ? ? ? allsaps.append(sap_dict)

? ? print(allsaps)

? ? return allsaps

def get_config(host,user,password,db):

? ? db_config={

? ? ? ? 'host':host,

? ? ? ? 'user':user,

? ? ? ? 'password':password,

? ? ? ? 'db':db

? ? }

? ? return db_config

def getConn(allsaps):

? ? db_config=get_config('localhost','root','admin','python')

? ? conn=pymysql.Connect(**db_config)

? ? cur=conn.cursor()

? ? for allsap in allsaps:

? ? ? ? province=allsap['province']

? ? ? ? score=allsap['score']

? ? ? ? rank=allsap['rank']

? ? ? ? name=allsap['name']

? ? ? ? type=allsap['type']

? ? ? ? sql="INSERT INTO rank(num,schname,province,type,score)VALUES("+"'"+rank+"'"+","+"'"+name+"'"+","+"'"+province+"'"+","+"'"+type+"'"+","+"'"+score+"'"+")"

? ? ? ? cur.execute(sql)

? ? conn.commit()

? ? cur.close()

? ? conn.close()

? ? print("操作完成")

if __name__ == "__main__":

? ? url="https://www.shanghairanking.cn/rankings/bcur/2020"

? ? all=bs(url)

? ? getConn(all)

?

  开发工具 最新文章
Postman接口测试之Mock快速入门
ASCII码空格替换查表_最全ASCII码对照表0-2
如何使用 ssh 建立 socks 代理
Typora配合PicGo阿里云图床配置
SoapUI、Jmeter、Postman三种接口测试工具的
github用相对路径显示图片_GitHub 中 readm
Windows编译g2o及其g2o viewer
解决jupyter notebook无法连接/ jupyter连接
Git恢复到之前版本
VScode常用快捷键
上一篇文章      下一篇文章      查看所有文章
加:2021-11-15 16:04:47  更:2021-11-15 16:05:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/23 23:29:58-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计