IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 数据结构与算法 -> 算法-pandas-数据合并与聚合分组 -> 正文阅读

[数据结构与算法]算法-pandas-数据合并与聚合分组

1、字符串离散化

将字符串形式的分类情况转化为类别。

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

file_path = './IMDB-Movie-Data.csv'
data = pd.read_csv(file_path)

# print(data.head)
# print(data.info())
# print(data['Genre'].tolist())
genreListTemp = data['Genre'].tolist()
genreSet = set()
for gen in genreListTemp:
    for i in gen.split(','):
        genreSet.add(i)
genreList = list(genreSet)
#先生成全是0的方阵
genres = pd.DataFrame(np.zeros((data.shape[0], len(genreList))), dtype=int, columns=genreList)
print(genres)


for i in range(data.shape[0]):
    gens = data['Genre'][i]
    #将查到位置的位置制为1
    genres.loc[i, gens.split(',')] = 1
print(genres)
print(type(genres))

data = genres.sum(axis=0).sort_values()
print(data)
_x = data.index
_y = data.values

plt.figure(figsize=(20, 8), dpi=80)
plt.bar(_x, _y)
# plt.show()









2、数据合并

import pandas as pd
import numpy as np

t1 = pd.DataFrame(np.zeros((2, 3)), index=list("ab"), columns=(list("abc")), dtype=int)
t2 = pd.DataFrame(np.ones((3, 3)), index=list("abc"), dtype=int)

print(t1)
print(t2)
#join可用于两个方阵合并,但是列一定不能重复
print(t1.join(t2))
#    a  b  c  0  1  2
# a  0  0  0  1  1  1
# b  0  0  0  1  1  1

#谁在前面,行列以谁为准,如果不够的用NaN补齐
print(t2.join(t1))
#    0  1  2    a    b    c
# a  1  1  1  0.0  0.0  0.0
# b  1  1  1  0.0  0.0  0.0
# c  1  1  1  NaN  NaN  NaN

t3 = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'b', 'c'], columns=list("ayz"))
print('t3')
print(t3)
#    a  y  z
# a  0  1  2
# b  3  4  5
# c  6  7  8
t1.loc['a', 'a'] = 100
# t1
#    a    b  c
# a  100  0  0
# b  0    0  0
print(t1.merge(t3, on='a', how='inner'))
#    a  b  c  y  z
# 0  0  0  0  1  2
#merge相当于数据库中的内外链接,行,列必须有相同的才能连在一起。默认是内连接


#outer是外连接
print(t1.merge(t3, on='a', how='outer'))
#      a    b    c    y    z
# 0  100  0.0  0.0  NaN  NaN
# 1    0  0.0  0.0  1.0  2.0
# 2    3  NaN  NaN  4.0  5.0
# 3    6  NaN  NaN  7.0  8.0

#左右连接,分别以左右的行为准
print(t1.merge(t3, on='a', how='left'))
#      a  b  c    y    z
# 0  100  0  0  NaN  NaN
# 1    0  0  0  1.0  2.0

print(t1.merge(t3, on='a', how='right'))
#    a    b    c  y  z
# 0  0  0.0  0.0  1  2
# 1  3  NaN  NaN  4  5
# 2  6  NaN  NaN  7  8

3、索引

?

?

import pandas as pd
import numpy as np

file_path = './starbucks_store_worldwide.csv'
data = pd.read_csv(file_path)

# print(data.head(1))
# print(data.info)

countryData = data.groupby(by='Country')
# for i in countryData:
#     print('*' * 100)
#     print(i)
# print(countryData)
country_count = countryData["Brand"].count()
# print(country_count)
# print(country_count['US'])
# print(country_count['CN'])

chinaData = data[data['Country'] == 'CN']
pros = chinaData.groupby(by='State/Province').count()['Brand']
# print(pros)

#多个分组条件的话,使用复合索引
grouped1 = data[['Brand']].groupby(by=[data["Country"], data["State/Province"]]).count()
grouped2= data.groupby(by=[data["Country"],data["State/Province"]])[["Brand"]].count()
grouped3 = data.groupby(by=[data["Country"],data["State/Province"]]).count()[["Brand"]]
print(grouped1)


print(t1)
#      a  b  c
# a  100  0  0
# b    0  0  0
print(t1.set_index('a'))
#      b  c
# a
# 100  0  0
# 0    0  0
print(t1.set_index('a', drop=False))
#        a  b  c
# a
# 100  100  0  0
# 0      0  0  0
print(t1.set_index(['a', 'b'], drop=False))
#          a  b  c
# a   b
# 100 0  100  0  0
# 0   0    0  0  0

4、复合索引

a = pd.DataFrame({'a': range(7),'b': range(7, 0, -1),'c': ['one','one','one','two','two','two', 'two'],'d': list("hjklmno")})
print(a)
#    a  b    c  d
# 0  0  7  one  h
# 1  1  6  one  j
# 2  2  5  one  k
# 3  3  4  two  l
# 4  4  3  two  m
# 5  5  2  two  n
# 6  6  1  two  o
b = a.set_index(['c', 'd'])
print(b)
#        a  b
# c   d
# one h  0  7
#     j  1  6
#     k  2  5
# two l  3  4
#     m  4  3
#     n  5  2
#     o  6  1
c = b['a']
print(c)
# c    d
# one  h    0
#      j    1
#      k    2
# two  l    3
#      m    4
#      n    5
#      o    6
print(c['one'])
# d
# h    0
# j    1
# k    2
print(c['one']['h'])
#serries取的话直接取就行
# 0
d = a.set_index(['d', 'c'])['a']
print(d)
# d  c
# h  one    0
# j  one    1
# k  one    2
# l  two    3
# m  two    4
# n  two    5
# o  two    6
# #把d索引放前面,c索引放后面,使用swaplevel就可以置换了
print(d.swaplevel())
# c    d
# one  h    0
#      j    1
#      k    2
# two  l    3
#      m    4
#      n    5
#      o    6
#关于DataFrame的获取数据
#但是需要使用loc方法,不然会被认为是字符串b['one']
print(b.loc['one'].loc['h'])
# a    0
# b    7
print(b.swaplevel().loc['h'].loc['one'])
# a    0
# b    7

?

  数据结构与算法 最新文章
【力扣106】 从中序与后续遍历序列构造二叉
leetcode 322 零钱兑换
哈希的应用:海量数据处理
动态规划|最短Hamilton路径
华为机试_HJ41 称砝码【中等】【menset】【
【C与数据结构】——寒假提高每日练习Day1
基础算法——堆排序
2023王道数据结构线性表--单链表课后习题部
LeetCode 之 反转链表的一部分
【题解】lintcode必刷50题<有效的括号序列
上一篇文章      下一篇文章      查看所有文章
加:2021-10-12 23:43:35  更:2021-10-12 23:45:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/6 17:59:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码