| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 基于NoSQL的租房(链家)信息数据分析(附代码) -> 正文阅读 |
|
[大数据]基于NoSQL的租房(链家)信息数据分析(附代码) |
python爬取(链家)房源信息进行数据分析(附代码)可视化效果图如下:爬取后的房源数据如下:
一、项目背景与项目分析近年来,持续高昂的房价将很多想要安身立命的人挡在了买房的门槛之外。在外漂泊的人们,只能暂时转向租赁市场寻求居住场所。购房行为代替给租房市场带来了巨大的规模和效益。 二、开发环境与开发工具PC、Linux、Web、ubuntu、MongoDB、python3、Dreamweaver CC 2019、Anaconda、Ubuntu18.04、Samba、putty 三、设计原理与思想3.1 Requests模块简介Urllib 和 Requests 模块是发起 http 请求最常见的模块。 3.2 pymongo介绍MongoDB是一个面向文档的,开源数据库程序,它平台无关。MongoDB像其他一些NoSQL数据库(但不是全部!)使用JSON结构的文档存储数据。这是使得数据非常灵活,不需要的Schema。 BeutifulSoup模块简介BeautifulSoup灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式就可以方便实现网页信息的提取。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。Python版本的标准库中内置了HTML的解析器,但是解析方法不稳定,所以最好使用lxml解析器。 3.4 多线程multiprocessing简介python中的多线程无法利用多核优势,如果想要充分地使用多核CPU的资源(os.cpu_count()查看),在python中大部分情况需要使用多进程。 四、开发流程4.1 创建项目在spyder上新建python项目,命名为“NoSQL_BigWork” 4.2 数据获取4.2.1 分析所爬取网页标签格式首先需要对所爬取的网页进行数据格式分析,才能更好的爬取所需要的数据,下图是M网的样式 4.2.2 使用python的requests爬虫库从网站上获取数据1)导库 4.2.3 使用lxml库对所爬取的数据进行解析使用requests库的get方法获取网页内容,第一个参数为爬取的网页地址,第二个参数为get请求的头header。Get方法返回的是html格式的网页内容,使用lxml库对html网页格式化。 4.2.4 设计文档的存储格式在获取房源详细信息后,需要设计存入mongodb数据库中的格式,如下: 4.2.5 对处理后的数据进行实时读入到mongodb中Python连接数据库需要使用到pymongdb库,连接数据库和创建集合让所爬取数据存储,使用MongoClient类创建连接数据库对象client,本案例使用本地数据库localhost:27017。get_database方法连接数据库,参数house为数据库名,get_collection方法连接集合,参数house_datas为集合名称,如果不存在此数据库和集合则新建。本例中爬取城市广州的租房信息,集合名称为“house_datas”。 4.3 数据可视化分析4.3.1 MongoDB聚合管道技术对数据进行分组计算1)对地区分组计算平均房价和最高房价 4.3.2 数据可视化基于聚合计算统计地区平均房价 4.3.3 上传项目4.3.4 运行项目
4.5 模拟网站建立大致的步骤就不写这么详细了,大致页面如下(哈哈哈哈哈,我的网站还是挺逼真的): 项目完整下载地址:https://download.csdn.net/download/weixin_44857413/33676504 此项目为自己的课程设计作业,这里很多涉及隐私就不在这里展示了,因为电脑要清理内存,怕一不小心清掉了,就在这里留点痕迹吧! |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 3:27:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |