| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 山东大学软件工程应用与实践——ECommerceCrawlers代码分析(十一) -> 正文阅读 |
|
[Python知识库]山东大学软件工程应用与实践——ECommerceCrawlers代码分析(十一) |
2021SC@SDUSC目录 一、摘要本篇博客是第三个项目“QiChaCha”的第二篇博客,本篇博客主要是对该项目的核心文件的代码部分进行分析,首先分析的是“get_parks.py(获取园区信息)”文件的代码。 二、get_parks.py文件代码分析1.部分一?
开头先定义url,后面的数字代表不同的页数,然后自定义headers以便能正常的爬取网页。 response = requests.get(url, headers=headers) 获取到url对应的网页内容,并提取出response的text格式赋给html,再将html赋成etree对象。 rUrls = parseHtml.xpath('//div[@class="panel n-s m-t-md"]/a/@href') 接下来都是用xpath来对parseHtml内容进行数据提取。rUrls提取的是某工业园区的url。例: # '/zonecompany_02212bebbb2c3b0212c7652e6feaeacf'
?rTitle = parseHtml.xpath('//div[@class="panel n-s m-t-md"]/a/div[@class="ea_title"]/text()') 该表达式是求的工业园区的名称(rTitle)(例:'\n 银江科技产业园\n )? rProvince = parseHtml.xpath('//div[@class="panel n-s m-t-md"]/a/div[@class="clearfix"][1]/span[1]/text()') 该表达式是求的该工业园区所在省份(rProvince)(例:'省份:浙江省') CityCounty = parseHtml.xpath('//div[@class="panel n-s m-t-md"]/a/div[@class="clearfix"][1]/span[2]/text()') 该表达式求的是工业园区所在的城市/区(CityCountry)(例:'城市/区:杭州市, 西湖区') ?rArea = parseHtml.xpath('//div[@class="panel n-s m-t-md"]/a/div[@class="clearfix"][2]/span[1]/text()') 该表达式求的是工业园区的占地面积(rArea)(例:'占地面积:9亩')? rNumCop = parseHtml.xpath('//div[@class="panel n-s m-t-md"]/a/div[@class="clearfix"][2]/span[2]/text()') 该表达式求的是工业园区的企业数量(rNumCop)(例:'企业数:278家') 2.部分二
path?=?'./csv/' 如果path不存在,则新建一个文件夹,文件名称为path+parks_name+'.csv'。 ????if?not?os.path.exists(file_name): 如果文件名不存在,则定义一个文件头(header),文件头包含文件的各种相关信息,然后创建该CSV文件。 ?num?=?len(rUrls) 对于之前获取到的rUrls列表,求出长度并对其遍历,在for循环中,每次将一个拼接好的url保存为url,将之前获取到的rTitle,rProvince等值赋给park,province等变量。最后将这些已经存好值的变量存为一个对象L,将该对象L(一个工业园区的基本信息)写入创建好的文件里。 文件内容实例: 三、总结?至此,get_parks.py(获取园区信息)文件的核心代码已分析完毕,我将在下一篇博客里对本项目剩余的核心代码进行分析。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/16 4:43:42- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |