1. 插入数据

参考链接 - runoob.com - Python Mongodb 插入文档

import pymongo
 
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["runoobdb"]   # 创建数据库runoobdb
dblist = myclient.list_database_names()  # 展示数据库

mycol = mydb["sites"]   # 创建集合
collist = mydb. list_collection_names()  # 展示集合（表）


# ======================================== 插入数据 ======================================== 
# insert_one(), insert_many()
# mydict = { "name": "RUNOOB", "alexa": "10000", "url": "https://www.runoob.com" }
 
# x = mycol.insert_one(mydict)   # insert_one() 方法返回 InsertOneResult 对象，
#                                 # 该对象包含 inserted_id 属性，它是插入文档的 id 值。
# print(x.inserted_id)

mylist = [
  { "name": "Taobao", "alexa": "100", "url": "https://www.taobao.com" },
  { "name": "QQ", "alexa": "101", "url": "https://www.qq.com" },
  { "name": "Facebook", "alexa": "10", "url": "https://www.facebook.com" },
  { "name": "知乎", "alexa": "103", "url": "https://www.zhihu.com" },
  { "name": "Github", "alexa": "109", "url": "https://www.github.com" }
]
 
x = mycol.insert_many(mylist)
print(x.inserted_ids)   # 输出插入的所有文档对应的 _id 值


# 插入指定数据

mycol2 = mydb['site2']
mylist2 = [
  { "_id": 1, "name": "RUNOOB", "cn_name": "菜鸟教程"},
  { "_id": 2, "name": "Google", "address": "Google 搜索"},
  { "_id": 3, "name": "Facebook", "address": "脸书"},
  { "_id": 4, "name": "Taobao", "address": "淘宝"},
  { "_id": 5, "name": "Zhihu", "address": "知乎"}
]
 
x2 = mycol2.insert_many(mylist2)
 
# 输出插入的所有文档对应的 _id 值
print(x2.inserted_ids)

2. 查询数据

参考链接 - runoob.com - Python Mongodb 查询文档

import pymongo
 
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["runoobdb"]   # 创建数据库runoobdb
dblist = myclient.list_database_names()  # 展示数据库

mycol = mydb["sites"]   # 创建集合
collist = mydb. list_collection_names()  # 展示集合（表）

# =============================================== 查找数据 ======================
# find_one(), find()

# x = mycol.find_one()
# print(x)

# for x in mycol.find():
#   print(x) 

# ------- 查询指定字段
# for x in mycol.find({},{ "_id": 0, "name": 1, "alexa": 1 }):
#   print(x)

# ------------ 查询指定条件
# myquery = { "name": "RUNOOB" }
# mydoc = mycol.find(myquery)
 
# for x in mydoc:
#   print(x)

# ------------ 高级查询
# myquery = { "name": { "$gt": "H" } }   # 读取 name 字段中第一个字母 ASCII 值大于 "H" 的数据，大于的修饰符条件为 {"$gt": "H"}
# mydoc = mycol.find(myquery)
 
# for x in mydoc:
#   print(x)

# -------------- 正则表达式查询
# myquery = { "name": { "$regex": "^R" } }   # 读取 name 字段中第一个字母为 "R" 的数据，正则表达式修饰符条件为 {"$regex": "^R"}
 
# mydoc = mycol.find(myquery)
 
# for x in mydoc:
#   print(x)

# -------------- 返回指定条数记录
myresult = mycol.find().limit(3)

for x in myresult:
  print(x)

3. 修改数据

参考链接 - runoob.com - Python Mongodb 修改文档

import pymongo
 
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["runoobdb"]   # 创建数据库runoobdb
dblist = myclient.list_database_names()  # 展示数据库

mycol = mydb["sites"]   # 创建集合


# =============================================== 修改数据 ======================
#  ----------- update_one() 方法修改文档中的记录。该方法第一个参数为查询的条件，第二个参数为要修改的字段。
# 如果查找到的匹配数据多于一条，则只会修改第一条。
# myquery = { "alexa": "10000" }
# newvalues = { "$set": { "alexa": "12345" } }
 
# mycol.update_one(myquery, newvalues)
 
# for x in mycol.find():   # 输出修改后的  "sites"  集合
#   print(x)


# -------------------  update_many() 修改所有匹配到的记录
# 查找所有以 F 开头的 name 字段，并将匹配到所有记录的 alexa 字段修改为 123
# myquery = { "name": { "$regex": "^F" } }
# newvalues = { "$set": { "alexa": "123" } }
 
# x = mycol.update_many(myquery, newvalues)
 
# print(x.modified_count, "文档已修改")
# for x in mycol.find():   # 输出修改后的  "sites"  集合
#   print(x)

4. 数据排序

参考链接 - runoob.com - Python Mongodb 数据排序

import pymongo
 
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["runoobdb"]   # 创建数据库runoobdb
dblist = myclient.list_database_names()  # 展示数据库

mycol = mydb["sites"]   # 创建集合


# =============================================== 排序数据 ======================
# sort() 方法第一个参数为要排序的字段，第二个字段指定排序规则，1 为升序，-1 为降序，默认为升序。

# mydoc = mycol.find().sort("alexa")  # alexa 按升序排序，默认升序
mydoc = mycol.find().sort("alexa", -1)   # 降序， 不含"alexa"的，排在name:"alexa"的后面

for x in mydoc:
  print(x)

5. 数据删除

参考链接 - runoob.com - Python Mongodb 数据删除

import pymongo
 
myclient = pymongo.MongoClient("mongodb://localhost:27017/")
mydb = myclient["runoobdb"]   # 创建数据库runoobdb
dblist = myclient.list_database_names()  # 展示数据库

mycol = mydb["sites"]   # 创建集合


# =============================================== 删除数据 ======================
# ------------- delete_one() 方法来删除一个文档，该方法第一个参数为查询对象，指定要删除哪些数据。
# myquery = { "name": "Taobao" }
# mycol.delete_one(myquery)
 
# for x in mycol.find():   # 删除后输出
#   print(x)


# --------- delete_many() 方法来删除多个文档，该方法第一个参数为查询对象，指定要删除哪些数据。
# 删除所有 name 字段中以 F 开头的文档
# myquery = { "name": {"$regex": "^F"} }

# x = mycol.delete_many(myquery) 
# print(x.deleted_count, "个文档已删除")


# -----------  delete_many() 方法如果传入的是一个空的查询对象，则会删除集合中的所有文档
# x = mycol.delete_many({})
# print(x.deleted_count, "个文档已删除")


# -----------  drop() 方法来删除一个集合
mycol.drop()  # return true: 删除成功

6. 远程连接-索引查询

参考链接 - pymongo 建检索 - 针对大容量数据 ?? ??

import pymongo
import pandas as pd
import datetime

mongo_client = pymongo.MongoClient('mongodb://username:password@hostname/dbname:端口号')
col = mongo_client["数据库名"]["集合名"]      # 集合


test_data = col.find().sort('_id', -1).limit(1)   # 逆序，即查询最后一个
test_data_2 = list(col.find({"$and" : [{'index1':'xxx'}, {'index2':'xxx'}]}).sort('_id', -1).limit(30))  # 按条件查找，最后30个

# ========================= 建索引 ============================
 
# print(col.index_information())   # 查询已建立的索引

start_time = "2022-1-1 10:00:00"
start_time = datetime.datetime.strptime(start_time, "%Y-%m-%d %H:%M:%S")
end_time = "2022-1-1 10:00:00"
end_time = datetime.datetime.strptime(end_time, "%Y-%m-%d %H:%M:%S")

# 已建立的复合索引 index1, index2,index3=datetime(仅这里为了区分)...
test_data3 = list(col.find({"$and": [{'index1':'xxx'},{'index2':'xxx'}, {'datetime':{'$gte': start_time, '$lte': end_time }}]}))


# ===================================== 构成dataframe ==============
data_df = pd.DataFrame()
for i in test_data3:
    data_df = data_df.append(i, ignore_index=True)