[大数据] scrapy框架 + MongoDB 实现数据大批量存储

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 大数据 -> scrapy框架 + MongoDB 实现数据大批量存储 -> 正文阅读

[大数据]scrapy框架 + MongoDB 实现数据大批量存储

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB
是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。他支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

以上一个项目为例： scrapy框架之crawl spider_zm024212的博客-CSDN博客

首先需要安装好MongoDB数据库以及可视化窗口，建议去官网下载：MongoDB Community Download | MongoDB

然后在python环境中需要安装一个pymongo 模块?? 打开cmd窗口输入 pip install pymongo 即可

导入模块

import pymongo

# 配置启动MongoDB
mongo = pymongo.MongoClient("mongodb://localhost:27017/")
db = mongo["data"]
col = db["pig"]

# 只需要修改pipelines.py文件，其他文件不需要改变

from itemadapter import ItemAdapter
import pymongo
# 配置启动MongoDB
mongo = pymongo.MongoClient("mongodb://localhost:27017/")
db = mongo["data"]
col = db["pig"]


class PigDataPipeline:
    def __init__(self):
        pass

    def open_spider(self, spider):

        pass

    def process_item(self, item, spider):
        # 保存数据到MongoDB数据库
        col.insert_one(dict(item))

        return item

    def close_spider(self, spider):
        self.f.close()

保存完毕，打开MongoDB可视化窗口，可以看到数据保存成功