| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 开发工具 -> 数据解析beautifulsoup爬取中国大学排名数据并保存到数据库(学习内容) -> 正文阅读 |
|
[开发工具]数据解析beautifulsoup爬取中国大学排名数据并保存到数据库(学习内容) |
? import requests from bs4 import BeautifulSoup, builder import pymysql def download(url): ? ? headers={ ? ? ? ? "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.40" ? ? ? ? } ? ? response=requests.get(url,headers=headers) ? ? return response # 解析网页 def bs(url): ? ? html_text=download(url) ? ? html_text.encoding=html_text.apparent_encoding ? ? soup=BeautifulSoup(html_text.text,'lxml') ? ? #获取分数和省市 ? ? sapList=soup.select('#content-box .rk-table tbody>tr') ? ? allsaps=[] ? ? for saptag in sapList: ? ? ? ? sap_dict={} ? ? ? ? sap_dict['province']=saptag.select('td')[2].get_text().strip() ? ? ? ? sap_dict['score']=saptag.select('td')[4].get_text().strip() ? ? ? ? sap_dict['rank']=saptag.select('div')[0].get_text().strip() ? ? ? ? sap_dict['name']=saptag.select('a')[0].get_text() ? ? ? ? sap_dict['type']=saptag.select('td')[3].get_text().strip() ? ? ? ? allsaps.append(sap_dict) ? ? print(allsaps) ? ? return allsaps def get_config(host,user,password,db): ? ? db_config={ ? ? ? ? 'host':host, ? ? ? ? 'user':user, ? ? ? ? 'password':password, ? ? ? ? 'db':db ? ? } ? ? return db_config def getConn(allsaps): ? ? db_config=get_config('localhost','root','admin','python') ? ? conn=pymysql.Connect(**db_config) ? ? cur=conn.cursor() ? ? for allsap in allsaps: ? ? ? ? province=allsap['province'] ? ? ? ? score=allsap['score'] ? ? ? ? rank=allsap['rank'] ? ? ? ? name=allsap['name'] ? ? ? ? type=allsap['type'] ? ? ? ? sql="INSERT INTO rank(num,schname,province,type,score)VALUES("+"'"+rank+"'"+","+"'"+name+"'"+","+"'"+province+"'"+","+"'"+type+"'"+","+"'"+score+"'"+")" ? ? ? ? cur.execute(sql) ? ? conn.commit() ? ? cur.close() ? ? conn.close() ? ? print("操作完成") if __name__ == "__main__": ? ? url="https://www.shanghairanking.cn/rankings/bcur/2020" ? ? all=bs(url) ? ? getConn(all) ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 21:03:29- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |