IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 算法-pandas -> 正文阅读

[人工智能]算法-pandas

1、

?

import pandas as pd
import numpy as np

#直接创建
t1 = pd.Series([1, 2, 31, 12, 2, 2])
print(t1)
# 0     1
# 1     2
# 2    31
# 3    12
# 4     2
# 5     2
#index也可以赋予
t2 = pd.Series([1, 2, 31, 12, 2, 2], index=list("abcdef"))
print(t2)
# a     1
# b     2
# c    31
# d    12
# e     2
# f     2

#字典的形式
temp_dict = {"name":"zhangsan", "age":20, "tel":"95588"}
t3 = pd.Series(temp_dict)
print(t3)
# name    zhangsan
# age           20
# tel        95588

#取数据:
print(t3["name"])
print(t3[1])
print(t3[:1])
print(t3[["name", "age"]])

print(t1[t1>10])
print(t3.index)
print(t3.values)

2、DataFrame

import pandas as pd
import numpy as np

t = pd.DataFrame(np.arange(12).reshape(3, 4))
print(t)
#    0  1   2   3
# 0  0  1   2   3
# 1  4  5   6   7
# 2  8  9  10  11
t2 = pd.DataFrame(np.arange(12).reshape(3, 4), index=list('abc'), columns=list('qwer'))
print(t2)
#    q  w   e   r
# a  0  1   2   3
# b  4  5   6   7
# c  8  9  10  11

dic = {"name":["zhangsan", "lisi"], "age":[3, 4]}
t3 = pd.DataFrame(dic)
print(t3)
#        name  age
# 0  zhangsan    3
# 1      lisi    4
print(type(t3))
print(t3.index)
print(t3.columns)
print(t3.values)
print(t3.shape)
print(t3.dtypes)
print(t3.ndim)
print(t3.head)
#展示DataFrame的概览
print(t3.info())
print(t3.describe())

3、dataframe获取

import pandas as pd
import numpy as np

t = pd.read_csv('./dogNames2.csv')
print(t.head())
print(t.describe())

#排序方法,按照by后边的排序
t = t.sort_values(by='Count_AnimalName', ascending = False)
print(t.head())
print('*' * 100)
#pandas取行或者列的注意点
# - 方括号写数组,表示取行,对行进行操作
# - 写字符串,表示的去列索引,对列进行操作
# print(t[:20])
# print('*' * 100)
# print(t["Row_Labels"])
# print('*' * 100)
# print(type(t["Row_Labels"]))
print(t[0:1])
#可以通过标签索引行数据
t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("wxyz"))
print(t)
print('*' * 100)
print(t.loc['a'])
# w    0
# x    1
# y    2
# z    3
print('*' * 100)
#选择某一个数据
print(t.loc['a', 'w'])
# 0
#选择一行的某几列
print(t.loc['a', ['w', 'y']])
# w    0
# y    2
#选择连续几行的某列
print(t.loc['a':, ['w', 'y']])
#    w   y
# a  0   2
# b  4   6
# c  8  10
#选择几行几列,注意:后边也会选到
print(t.loc['a':'c', 'w':'y'])
#    w  x   y
# a  0  1   2
# b  4  5   6
# c  8  9  10

#通过位置获取行数据
print(t.iloc[0, 0])
#0
print(t.iloc[0:1, 0])
# a    0
print(t.iloc[0:1, [0, 1]])
#    w  x
# a  0  1

4、bool运算以及nan填充

import numpy as np
import pandas as pd

t = pd.read_csv('./dogNames2.csv')
print(t.head())

# 找到所有的使用次数超过700并且名字的字符串的长度大于4的狗的名字
#要将条件使用()括起来,然后使用 '&', '|' 链接
t1 = t[(t['Count_AnimalName'] > 700)&(t['Row_Labels'].str.len() > 4)]
print(t1)

#修复缺失数据
t2 = pd.DataFrame(np.arange(16).reshape(4, 4))
print(t2)
t2.iloc[[0, 1], [1, 2]] = np.nan
print(t2)
print(pd.isnull(t2))
print(pd.notnull(t2))

#1.直接删除掉nan所在的行
t3 = t2[pd.notnull(t2.iloc[:, 1])]
print(t3)
#使用dropna 方法进行删除
#axis表明方向how:any是指只要有nan就删,all指必须全是nan才删inplace,表示是否会自己更新,true的话就不用再赋值了。
# t2.dropna(axis=0, how='any', inplace=True)
# print(t2)

#2.填充
#填充0
print('*' * 100)
print(t2.fillna(0))
#填充均值
print('*' * 100)
print(t2.fillna(t2.mean()))
#填充中值
print('*' * 100)
print(t2.fillna(t2.median()))

#如果是0的话,可以更新成nan,因为nan不参与mean等的运算
t2[t2==0] = np.nan
print(t2)

?

import pandas as pd
import numpy as np

filname = 'IMDB-Movie-Data.csv'
t = pd.read_csv('./' + filname)
print(t.info())
print(t.head(1))
#获取平均评分
print(t['Rating'].mean())
#导演的人数
print(len(set(t['Director'].tolist())))
#获取演员的人数
temp_actors_list = t['Actors'].str.split(', ').tolist()
print(temp_actors_list)
actors_list = [i for j in temp_actors_list for i in j]
print(actors_list)
print(temp_actors_list[0])
actors_list1 = []
print('*' * 100)
for i in temp_actors_list:
    for j in i:
        actors_list1.append(j)

print(actors_list1)
import pandas as pd
from matplotlib import pyplot as py

file_path = './IMDB-Movie-Data.csv'
source = pd.read_csv(file_path)
# print(source.head())
print(source.info())

rating = source["Rating"].values
# print(rating)

max_rating = rating.max()
min_rating = rating.min()

print(max_rating - min_rating)

num_bin = (max_rating - min_rating)//0.5
print(type(int(num_bin)))
py.figure(figsize=(20, 8), dpi=80)
py.hist(rating, int(num_bin))
_x = [min_rating]
i = min_rating
while i<=max_rating+0.5:
    i = i+0.5
    _x.append(i)

py.xticks(_x)
py.show()

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-29 10:15:46  更:2021-09-29 10:17:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/22 5:09:17-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码