'''
-*- coding: utf-8 -*-
@Author : Dongze Xu
@Time : 2021/12/10 20:35
@Function:
'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
'''
设置dataframe显示数据
'''
pd.set_option('display.max_rows',None)
pd.set_option('display.max_columns',None)
pd.set_option('max_colwidth',200)
pd.set_option('expand_frame_repr', False)
movie = pd.read_csv("./data/IMDB-Movie-Data.csv")
'''
我们希望统计电影分类(genre)的情况
分析:
1、先将Genre列的数据存储到一个列表里面,由于每行不止一个数据且用“,”分割,我们可以用split方法进行切分
2、然后我们需要知道有多少种不同种类得电影,再对整个列表进行去重
3、我们生成一个二维矩阵来存储统计的信息,行数是数据的总行数,列代表不同种类的电影名称,i行j列代表的就是i行是否出现过j列的数据
4、对矩阵每一列进行求和,得出每个电影出现次数的总和,然后进行排序
5、画图
'''
movie_list = [i.split(",") for i in movie["Genre"]]
single_movie_list = [j for i in movie_list for j in i]
fin_movie_list = np.unique(single_movie_list)
print(fin_movie_list)
zeros_matrix = np.zeros([movie.shape[0], fin_movie_list.shape[0]])
data_matrix = pd.DataFrame(zeros_matrix, columns=fin_movie_list)
for i in range(1000):
str_list = movie_list[i]
data_matrix.loc[i, movie_list[i]] = 1
print(data_matrix.head())
genre = data_matrix.sum().sort_values(ascending=True)
genre.plot(kind="bar", colormap="cool", figsize=(30, 15), fontsize=16)
plt.show()
|