IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python数据预处理——关联数据写入csv文件,为画图作准备 -> 正文阅读

[Python知识库]python数据预处理——关联数据写入csv文件,为画图作准备

python数据预处理——有关联数据写入csv文件,为画图作准备


目标格式如下:
在这里插入图片描述
测试代码:



from pandas import  DataFrame
# import json
# import numpy as np
#
# file = open('clean_data.txt', encoding='UTF-8')
# js = file.read()
# dic = json.loads(js)
# #print(dic)
# file.close()



authors=[]
authors_id={}
empty=[]
author_name={}

#第一个循环代表遍历每一篇论文
author_name['id']=123456
author_name['name']='xiaotang'
author_name['follow_id']=1234567
author_name['follow_name']='xiaotangtang'
authors.append(author_name)
author_name={}
author_name['id']=12345678
author_name['name']='xiaotang123'
author_name['follow_id']=123456789
author_name['follow_name']='xiaotangtang456'
authors.append(author_name)
print(authors)
data_frame = DataFrame(data=authors)
data_frame.to_csv("a.csv")

筛选数据集中的数据:



from pandas import  DataFrame
import json
import numpy as np

file = open('clean_data.txt', encoding='UTF-8')
js = file.read()
dic = json.loads(js)
#print(dic)
file.close()

count=0

authors=[]
empty=[]
author_name={}

#第一个循环代表遍历每一篇论文
for leng_dic in range(len(dic)-1):
    author_dic=dic[leng_dic].get('authors', [])
    if author_dic is None:
        empty.append(leng_dic)
    else:

        author_name_now = []
        author_id_now = []


        #遍历每篇论文里的作者信息
        for i in range( len(author_dic)-1):
            try:
                author_id_now.append(author_dic[i]['_id'])
            except:
                author_id_now.append([])


            try:
                author_name_now.append(author_dic[i]['name'])
            except:
                author_id_now.append([])


        for j in range(len(author_name_now)-1):
            for t in range(len(author_name_now) - 1):
                author_name={}

                if j !=t:
                    #print(123)
                    author_name['id']=author_id_now[j]
                    author_name['name']= author_name_now[j]
                    author_name['follow_id']=author_id_now[t]
                    author_name['follow_name'] = author_name_now[t]
                    authors.append(author_name)
                    #print('start')
                    #print(authors)


data_frame = DataFrame(data=authors)
data_frame.to_csv("tu1.csv")




部分数据集没有部分关键字,直接删掉:



from pandas import  DataFrame
import json
import numpy as np

file = open('clean_data.txt', encoding='UTF-8')
js = file.read()
dic = json.loads(js)
#print(dic)
file.close()

count=0

authors=[]
empty=[]
author_name={}

#第一个循环代表遍历每一篇论文
for leng_dic in range(len(dic)-1):
    author_dic=dic[leng_dic].get('authors', [])
    if author_dic is None:
        empty.append(leng_dic)
    else:

        author_name_now = []
        author_id_now = []


        #遍历每篇论文里的作者信息
        for i in range( len(author_dic)-1):
            try:
                author_id_now.append(author_dic[i]['_id'])
                author_name_now.append(author_dic[i]['name'])
            except:
                pass




        for j in range(len(author_name_now)-1):
            for t in range(len(author_name_now) - 1):
                author_name={}

                if j !=t:
                    #print(123)
                    author_name['id']=author_id_now[j]
                    author_name['name']= author_name_now[j]
                    author_name['follow_id']=author_id_now[t]
                    author_name['follow_name'] = author_name_now[t]
                    authors.append(author_name)
                    #print('start')
                    #print(authors)


data_frame = DataFrame(data=authors)
data_frame.to_csv("tu1.csv")




在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-11-17 12:43:00  更:2021-11-17 12:43:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 1:26:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码