MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。
以上一个项目为例 : scrapy框架之crawl spider_zm024212的博客-CSDN博客
首先需要安装好MongoDB数据库以及可视化窗口,建议去官网下载:MongoDB Community Download | MongoDB
然后在python环境中需要安装一个pymongo 模块?? 打开cmd窗口输入 pip install pymongo 即可
导入模块
import pymongo
# 配置启动MongoDB
mongo = pymongo.MongoClient("mongodb://localhost:27017/")
db = mongo["data"]
col = db["pig"]
# 只需要修改pipelines.py文件,其他文件不需要改变
from itemadapter import ItemAdapter
import pymongo
# 配置启动MongoDB
mongo = pymongo.MongoClient("mongodb://localhost:27017/")
db = mongo["data"]
col = db["pig"]
class PigDataPipeline:
def __init__(self):
pass
def open_spider(self, spider):
pass
def process_item(self, item, spider):
# 保存数据到MongoDB数据库
col.insert_one(dict(item))
return item
def close_spider(self, spider):
self.f.close()
保存完毕,打开MongoDB可视化窗口,可以看到数据保存成功
然后就可以对这些批量大数据进行下一部分析处理,更多爬虫,数据分析,和数据库等知识后续更新
?
|