1.Jupyter notebook不具备的功能是 ()
- Jupyter notebook可以直接生成一份交互式文档
- Jupyter notebook可以安装Python库
- Jupyter notebook可以导出HTML文件
- Jupyter notebook可以将文件分享给他人
right_answers: Jupyter notebook可以将文件分享给他人
2.在Jupyter notebook的命令模式下,要查看所有快捷键应该按下的快捷键是 ( )
right_answers: H
3.在Jupyter notebook的cell中安装包语句正确的是 ( C )
- pip install 包名
- conda install 包名
- !pip install 包名
- !conda install 包名
right_answers: !pip install 包名
4.Numpy提供了两种基本对象,一种是ndarray,另一种是( )
right_answers: func
5.创建一个3*3的数组,下列代码中错误的是( )
- np.arange(0,9).reshape(3,3)
- np.eye(3)
- np.random.random([3,3,3])
- np.mat(“1,2,3;4,5,6;7,8,9”)
right_answers: np.random.random([3,3,3])
6.Numpy中统计数组元素个数的方法是( )
right_answers: itemsize
7.利用下面哪个可视化绘图可以发现数据的异常点。 ( )
right_answers: 盒图
8.以下关于缺失值检测的说法中,正确的是( )
- null和notnull可以对缺失值进行处理
- dropna方法既可以删除观测记录,还可以删除特征
- fillna方法中用来替换缺失值的值只能是数据框
- Pandas库中的interpolate模块包含了多种插值方法
right_answers: Pandas库中的interpolate模块包含了多种插值方法
9.Matplotlib中的哪个包提供了一批操作和绘图函数( )
right_answers: pyplot
10.以下关于绘图标准流程说法错误的是( )
- 绘制简单的图形可以使用缺省的画布
- 添加图例可以在绘制图形之前
- 添加x轴,y轴的标签可以在绘制图形之前
- 修改x轴标签,y轴标签和绘制的图形没有先后
right_answers: 添加图例可以在绘制图形之前
11.下列参数中调整后显示中文的( )
- lines.linestyle
- lines.linewidth
- font.sans-serif
- axes.unicode_minus
right_answers: font.sans-serif
12.以下说法错误的是( )
- 饼图一般用于表示不同分类的占比情况。
- 箱线图展示了分位数的位置。
- 散点图无法反映特征间的统计关系。
- 词云对于文本中出现频率较高的关键词予以视觉上的突出。
right_answers: 散点图无法反映特征间的统计关系。
13.列表是不可变对象,支持在原处修改。 ( )
right_answers: 0
14.元组是不可变的,不能直接修改元组中元素的值,也不能为元组增删元素。( )
right_answers: 1
15.Python使用lambda创建匿名函数,匿名函数拥有自己的命名空间。( )
right_answers: 1
16.同一个列表中的元素的数据类型可以各不相同。( )
right_answers: 1
17.列表、元组和字符串属于有序序列,其中的元素有严格的先后顺序。 ( )
right_answers: 1
18.集合中的元素没有特定顺序但可以重复。( )
right_answers: 0
19.列表推导式在逻辑上等价于一个循环语句,只是形式上更加简洁( )
right_answers: 1
20.在Python中创建一个空集合,可以直接用 set1={} 。( )
right_answers: 0
21.列表、元组和字符串都支持双向索引,有效索引的范围为[-L,L],L为列表、元组或字符串的长度。( )
right_answers: 0
22.包含列表的元组可以作为字典的键。( )
right_answers: 0
23.创建Series时如果指定了index,则只能用index访问数据。( )
right_answers: 0
24.创建DataFrame时会自动加上索引,且全部列会被有序排列。( )
right_answers: 1
25.Pandas中数据对象的索引可以随时被修改。 ( )
right_answers: 0
26.Pandas中数据的重建索引指对索引重新排序而不是修改。( )
right_answers: 1
27.交叉表是一种特殊的透视表,主要用于计算分组频率。 ( )
right_answers: 1
28.两个索引不一致的series进行算数运算会出错。( )
right_answers: 0
29.Pandas中利用merge函数合并数据表时默认的是内连接方式。( )
right_answers: 1
30.Pandas中的描述性统计一般会包括缺失数据。 ( )
right_answers: 0
31.语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列。 ( )
right_answers: 0
32.利用merge方法合并数据时允许合并的DataFrame之间没有连接键。 ( )
right_answers: 0
33.哑变量(Dummy Variables)又称虚拟变量,是用以反映质的属性的一个人工变量。( )
right_answers: 1
34. Seaborn的绘图更加便捷美观,是matplotlib的替代。 ( )
right_answers: 0
35.需要转换默认的Seaborn绘图风格,只需调用有参数设置的set方法。( )
right_answers: 0
36.使用Seaborn中的set_style( ) 设置主题,有5个预设的主题。( )
right_answers: 1
37.热力图实现过程就是将离散的点信息映射为图像。( )
right_answers: 1
38.CSV(Comma-Separated Values)文件也称为字符分隔值文件,因为分隔字符也可以___ 逗号。
right_answers: 不是
39.列表的sort方法没有返回值,或者说返回值为______。
right_answers: None
40.Python中要使字符串转义字符不转义,则直接在字符串前加字符______。
right_answers: r
41.已知字典dic={‘w’:97,’a’:19},则dic.get(‘w’, None)的值是______。
right_answers: 97
42.有arr = np.arange(12).reshape(3,4),则arr[(0,1),(1,3)]对应的值是______和______;arr[1:2,(0, 3)]对应的元素是______和______;arr.ndim的值是______。
right_answers: 1
43.对于上题中的arr,若定义mask = np.array([1,0,1],dtype = np.bool),则arr[mask,1] 对应的元素是______和______。
right_answers: 1
44.a=np.arange(8).reshape(2,4),np.hsplit(a,2)返回值是______。
right_answers: array([[0, 1], [4, 5]]), array([[2, 3], [6, 7]])]
45.数组转置是数据重塑的一种特殊形式,可以通过 ___方法或数组的T属性实现。
right_answers: transpose
46.创建一个范围在(0,1)之间的长度为12的等差数列的语句是 ___。
right_answers: np.linspace(0,1,12)
47.Numpy中数组的方法sort、argsort和lexsort分别是指 、 将___和 。
right_answers: 直接排序
48.实现创建一个10*10的ndarray对象,满足矩阵边界全为1,里面全为0对应的代码是______。
right_answers: a= np.zeros((10,10), dtype =int) a[0,:]=1 a[:,9]=1 a[:,0]=1 a[9,:]=1
49.将数组arr中所有的奇数置为-1对应的语句是______。
right_answers: arr[arr%2!=0]=-1
50.Pandas中与set_index方法相关用于还原索引的方法是 ___。
right_answers: reset_index
51.Series是一种一维数组对象,包含一个值序列。Series中的数据通过______访问。
right_answers: 索引
52.Series有两种描述某条数据的手段,即______和标签。
right_answers: 位置
53.一个DataFrame对象的属性values和ndim分别指___ 和 ___。
right_answers: 数据元素
54.reindex方法中的参数method可以取值为‘ffill’和‘bfill’,分别指___ 和______。
right_answers: 前向填充
55.随机抽取数据的语句sample(frac=0.7)中的frac参数的含义是______。
right_answers: 抽取比例
56.修改数据中的参数“inplace”的含义是______。
right_answers: 是否在原数据上修改
57.Pandas的数据对象在进行算术运算时如果存在不同索引会进行数据对齐,但会引入______。
right_answers: NAN值
58.Pandas中的applymap方法的作用是______。
right_answers: 将函数套用到数据的的行与列上
59.Pandas中绘图时可以只用plot方法,具体绘图可以用参数 ___设置。
right_answers: kind
60.在Pandas中用于创建指定长度的日期型序列的方法是pandas.___ 方法。
right_answers: data_range
61.datetime类数据是date类和time类的组合。通过 ___方法可以查看当前系统时间。
right_answers: now( )
62.可以使用datetime.strptime将字符串转换为______。
right_answers: 时间类型
63.时间序列的重采样是时间序列频率转换的过程,高频率聚合到低频率称为______。
right_answers: 下采样
64.数据___ 也被称为监督学习,包括学习阶段和分类阶段。
right_answers: 分类
65.___分析是一项预测建模技术,它通过建模研究多个自变量对因变量的影响强度,预测数值型目标值。
right_answers: 回归
66.___ 是一种使用线性映射来进行数据降维的方法,它通过去除数据相关性以最大限度保持原始数据的方差信息。
right_answers: PCA (或主成分分析)
67.在K-Means算法中,由簇的______来代表整个簇。
right_answers: 均值
68.SVM的主要目标是寻找最佳 ___,以便在不同类的数据间进行正确分类。
right_answers: 超平面
69.层次聚类是按照某种方法进行层次分类,主要有______和______两类方法。
right_answers: 凝聚
70.简述数据分析与数据挖掘的区别与联系。
right_answers:
71.简述数据可视化分析的基本过程。
right_answers: 数据可视化分析过程如图1-2所示,包括数据处理、视觉编码和可视化生成。数据处理聚焦于数据的采集、清理、预处理、分析和挖掘;视觉编码聚焦于解决对光学图像进行接收、提取信息、加工变换、模式识别及存储显示;可视化生成则聚焦于解决将数据转换成图形,并进行交互处理。数据可视化分析通过对数据不断地观察、分析从而发现有用的信息模式。
72.简述Jupyter Notebook的安装及第三方包的安装过程。
right_answers: Python第三方包的安装方式较多,本书建议采用以下方式进行安装和管理。 (1)在CMD命令窗口中,使用conda命令进行自动下载安装,用法如下: conda install <包名称列表> #安装包 conda remove <包名称列表> #卸载包 conda search<搜索项> #搜索包 conda list #查看所有包 conda update<包名称> #升级包 (2)在CMD命令窗口中使用pip命令,用法如下: pip install <包名> #安装包 pip install–upgrade <包名> #更新包 pip uninstall <包名> #删除包 也可以在Jupyter notebook的cell中运行pip命令执行相应的命令,只需在命令前加“!”,如执行 ! pip install 包名 进行包的安装。
73.简述Jupyter Notebook中编辑模式与命令模式之间的切换方法。
right_answers: 按esc键切换为命令模式,按enter键进入编辑模式
74.输入一个包含若干数据的列表,先将列表中的数由小到大进行排序,然后将值为负数的元素进行平方运算。
right_answers: 略
75.输入一个字符串,输出收尾交换翻转后的字符串,如输入“abcd”,输出“dcba”。要求使用内置函数实现。
right_answers: 略
76.计算1!+2!+……+n!(n由键盘输入)。
right_answers: 略
77.简述Pandas删除空缺值方法dropna中参数thresh的使用方法。
right_answers: dropna中的参数thresh当传入thresh = N时,表示要求一行至少具有N个非NaN才能存活。
78.简述Python中利用数据统计方法检测异常值的常用方法及其原理。
right_answers: a.散点图方法观察 b. 箱线图分析 c. 3σ法则,原理略,见课本。
79.简述数据分析中要进行数据标准化的主要原因。
right_answers: 不同特征之间往往具有不同的量纲,由此造成数值间的差异很大。因此为了消除特征之间量纲和取值范围的差异可能会造成的影响,需要对数据进行标准化处理。
80.简述Pandas中利用cut方法进行数据离散化的用法。
right_answers: 将数据的值域划分成具有相同宽度的区间,区间个数由数据本身的特点决定或由用户指定。Pandas提供了cut函数,可以进行连续型数据的等宽离散化。cut函数的基础语法格式为: pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3)
81.简述数据可视化按照数据类型进行分类的类型。
right_answers: 有时空数据可视化,层次与网络结构数据可视化,文本和跨媒体数据可视化以及多变量数据可视化。
82.简述Matplotlib全局参数定制的方法。
right_answers: 查找到当前用户的配置文件目录,然后用编辑器打开,修改matplotlibrc文件,即可修改配置参数。
83.简述Matplotlib中通过text和annotate进行绘图文本注解的区别。
right_answers: text函数在指定位置加入文本注释,annotate函数在图像实现带有指向型的文本注释。
84.根据如下绘制写出相应的代码。
(1) 绘图函数:y=sin(x), y=cos(x), x = np.linspace(-np.pi, np.pi, 256, endpoint=True); (2) 绘制填充区域: 紫色区域:(-2.5<x)&(x<-0.5) 绿色区域:np.abs(x)<0.5,sinx>0.5 紫色的设置:color=‘purple’
right_answers:
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
x = np.linspace(-np.pi,np.pi,256,endpoint=True)
sin,cos = np.sin(x),np.cos(x)
plt.plot(x,sin,"b-",lw=2.5,label="正弦Sin()")
plt.plot(x,cos,"r-",lw=2.5,label="余弦Cos()")
plt.xlim(x.min()*1.5,x.max()*1.5)
plt.ylim(cos.min()*1.5,cos.max()*1.5)
plt.xticks([-np.pi,-np.pi/2,0,np.pi/2,np.pi],[r'$-\pi$',r'$-\pi/2$',r'$0$',r'$\pi/2$',r'$\pi$'])
plt.yticks([-1,0,1])
plt.title("绘图实例之COS()&SIN()",fontsize=16,color="green")
plt.text(+2.1,-1.4,"python_matplotlib",fontsize=16,color="purple")
ax=plt.gca()
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
ax.xaxis.set_ticks_position('bottom')
ax.spines['bottom'].set_position(('data',0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data',0))
plt.legend(loc="upper left",fontsize=12)
t1=-np.pi
t2=2*np.pi/3
plt.scatter([t1,],[np.cos(t1),], 50, color ='b')
plt.scatter([t2,],[np.sin(t2),], 50, color ='r')
plt.annotate(r'$\sin(\frac{2\pi}{3})=\frac{\sqrt{3}}{2}$',
xy=(t2,np.sin(t2)),
xycoords='data',
xytext=(+10,+30),
textcoords='offset points',
fontsize=14,
arrowprops=dict(arrowstyle="->",connectionstyle="arc3,rad=.2"))
plt.annotate(r'$\cos(-\pi)=-1$',
xy=(t1,np.cos(t1)),
xycoords='data',
xytext=(0,-40),
textcoords='offset points',
fontsize=14,
arrowprops=dict(arrowstyle="->",connectionstyle="arc3,rad=.2"))
for label in ax.get_xticklabels()+ax.get_yticklabels():
label.set_fontsize(18)
plt.fill_between(x, np.abs(x)<0.5, sin, sin>0.5, color='g', alpha=0.8)
plt.fill_between(x, cos, where=(-2.5<x)&(x<-0.5), color='purple')
plt.grid()
plt.show()
85.简述Seaborn绘图风格设置的内容和方法。
right_answers: Seaborn通过set函数实现风格设置。
seaborn.set(context='notebook', style='darkgrid', palette='deep', font='sans-serif', font_scale=1, color_codes=True, rc=None)
86.简述Seaborn绘图主题设置的内容和方法。
right_answers: Seaborn将matplotlib的参数划分为两个独立的组合。第一组是设置绘图的外观风格的,第二组主要将绘图的各种元素按比例缩放的,以至可以嵌入到不同的背景环境中。控制这些参数的接口主要有两对方法: 控制风格:axes_style(), set_style() 缩放绘图:plotting_context(), set_context() 每对方法中的第一个方法(axes_style(), plotting_context())会返回一组字典参数,而第二个方法(set_style(), set_context())会设置matplotlib的默认参数。 利用set_style( )设置主题,Seaborn有五个预设的主题: darkgrid、 whitegrid、dark、white和 ticks,默认为darkgrid。
87.简述临时设置绘图参数的方法。
right_answers: 利用with语句 with sns.axes_style(“darkgrid”): plt.subplot(2,1,1) sinplot( )
88.简述pyecharts中图表绘制的步骤。
right_answers: 图形绘制过程,基本上所有的图表类型都是这样绘制的:
chart_name = Type() #初始化具体类型图表 chart_name .add() #添加数据及配置项 chart_name .render() #生成本地文件(html/svg/jpeg/png/pdf/gif) chart_name .render_notebook #在jupyter notebook中显示 #### 89.简述pyecharts代码链式调用的方法。
right_answers: V1 版本开始支持链式调用 bar = ( Bar() .add_xaxis([“衬衫”, “毛衣”, “领带”, “裤子”, “风衣”, “高跟鞋”, “袜子”]) .add_yaxis(“商家A”, [114, 55, 27, 101, 125, 27, 105]) .set_global_opts(title_opts = opts.TitleOpts(title = “某商场销售情况”)) ) bar.render_notebook()
90.简述桑基图和平行坐标图的主要作用。
right_answers: 桑基图(Sankey diagram)即桑基能量分流图,也叫桑基能量平衡图。它是一种特定类型的流程图,图中延伸的分支的宽度对应数据流量的大小,通常应用于能源、材料成分、金融等数据的可视化分析。Pyecharts中利用Sankey绘制桑基图。 平行坐标图(Parallel Coordinates Plot)是对于具有多个属性问题的一种可视化方法。在平行坐标图中,数据集的一行数据在平行坐标图中用一条折线表示,纵向是属性值,横向是属性类别(用索引表示)。
91.简述pyecharts中地图绘制的主要过程。
right_answers: 略
92.简述时间序列数据分析的应用场景。
right_answers: 在多个时间点观测或测量的数据形成了时间序列。时间序列数据是一种重要的结构化数据类型,如金融、经济、生态学、神经科学和物理学等领域。
93.简述用Python来进行平稳性检验的常用方法。
right_answers: 用Python来进行平稳性检验主要有时序图检验、自相关图检验以及构造统计量进行检验3种方法。 (1)时序图 时序图就是普通的时间序列图,即以时间为横轴,观察值为纵轴进行检验。利用时序图可以粗略观察序列的平稳性。 (2)自相关图检验 平稳序列通常具有短期相关性,即随着延迟期数k的增加,平稳序列的自相关系数会很快地衰减向零,而非平稳序列的自相关系数的衰减速度会比较慢。画自相关图用到的是statsmodels中的plot_acf方法。自相关图中横轴表示延迟期数,纵轴表示自相关系数。 (3)构造统计量 利用绘图判断序列的平稳性比较直观,但不够精确,ADF(Augmented Dickey-Fuller)法直接通过假设检验的方式来验证平稳性。ADF的原假设(H0)和备择假设(H1)如下: H0:具有单位根,属于非平稳序列; H1:没有单位根,属于平稳序列。 Python中可以使用statsmodels中的adfuller方法进行ADF检验,直接输入数据,即可返回7个数值。其中的第一个返回值adf就是ADF方法的检验结果,这个值理论上越负越能拒绝原假设;第二个返回值pvalue以常用的判断标准值0.05作为参考,若其值大于0.05,说明支持原假设,反之拒绝原假设,表明该序列是一个平稳序列。
94.简述SciPy的主要功能。
right_answers: Scipy是一款用于数学、科学和工程领域的Python工具包,可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。
95.简述常见的范数含义及在Scipy中的实现方法。
right_answers: 见课本P214
96.简述Scipy中提供的优化方法。
right_answers: SciPy.optimize包提供了几种常用的优化算法,包括用来求有/无约束的多元标量函数最小值算法,最小二乘法,求有/无约束的单变量函数最小值算法,还有解各种复杂方程的算法。
97.简述最小二乘法的原理及在Scipy中的实现方法。
right_answers: 见课本P218
98.简述Scipy中稀疏矩阵的处理方法。
right_answers: 见课本P219
99.简述分类和聚类的主要特点。
right_answers: 分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。数据分类也被称为监督学习,用来训练分类模型的数据需要有已标注的标签,包括学习阶段(构建分类模型)和分类阶段(使用模型预测给定数据的类标号)两个阶段。 将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。聚类不需要有事先标注的标签。
100.简述回归分析的主要过程。
right_answers: 回归分析可以简单理解为数据分析与预测,通过对数据进行分析实现预测,也就是适当扩大已有自变量的取值范围,并承认该回归方程在扩大的定义域内成立。一般来说,回归分析的主要过程和步骤如下: (1)收集一组包含因变量和自变量的数据; (2)根据因变量和自变量之间的关系,初步设定回归模型; (3)求解合理的回归系数; (4)进行相关性检验,确定相关系数; (5)利用模型对因变量作出预测或解释,并计算预测值的置信区间。
101.简述KNN最近邻分类算法的过程。
right_answers: KNN(k-Nearest Neighbor Classification)算法根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本举例最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数样本所属的类别作为X的类别。
102.简述朴素贝叶斯分类的基本原理。
right_answers: 给定一个分类标签y和自由特征变量 表示样本具有特征i,而表示样本不具有特征i。如果要知道具有特征1到n的向量是否属于分类标签,可以利用贝叶斯公式如11.1。 假定一个属性值在给定类上的影响独立于于其他属性的值“类条件独立性”,则
103.简述Python-OpenCV的主要功能。
right_answers: 在计算机视觉项目的开发中,OpenCV作为较大众的开源库,拥有了丰富的常用图像处理函数库,采用C/C++语言编写,可以运行在Linux/Windows/Mac等操作系统上,能够快速的实现一些图像处理和识别的任务。此外,OpenCV还提供了Java、Python、cuda等的使用接口、机器学习的基础算法调用,从而使得图像处理和图像分析变得更加易于上手,让开发人员更多的精力花在算法的设计上。OpenCV的主要应用领域有计算机视觉领域方向、物体识别、图像分割、人脸识别、动作识别、运动跟踪等。
104.简述彩色图像在OpenCV和Matplotlib中显示的区别。
right_answers: Matplotlib显示图像时是按照rgb模式,而通过OpenCV使用cv2.imread()命令读取的彩色图像是BGR格式。如果有必要的话可以将其从BGR格式转换为RGB格式。下面语句使用cv2.cvtColor()命令实现BGR格式到RGB或灰度图像的转换。 image_rgb = cv2.cvtColor(image, cv2.COLOR_BGR2RGB) image_gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
105.利用Python-OpenCV实现图像的缩放、旋转、标注、分割和平滑等操作。
right_answers: 略
106.Jupyter notebook不具备的功能是( )。
- Jupyter notebook可以直接生成一份交互式文档
- Jupyter notebook可以安装Python库
- Jupyter notebook可以导出HTML文件
- Jupyter notebook可以将文件分享给他人
right_answers: Jupyter notebook可以将文件分享给他人
107.在Jupyter notebook的命令模式下,查看所有快捷键应该按下的键是( )。
right_answers: H
108.在Jupyter notebook的cell中安装包语句正确的是( )。
- pip install 包名
- conda install 包名
- !pip install 包名
- !conda install 包名
right_answers: !pip install 包名
109.在Jupyter notebook中按( )键进入命令模式。
right_answers: ESC
110.下面不属于python特性的是( )。
right_answers: 属于低级语言
111.以下哪条语句定义了一个Python字典。( )
right_answers: {}
112.字符串是一个字符序列,例如,字符串s,从右侧向左第3个字符用什么索引?( )
right_answers: [-3]
113.循环结构可以使用Python语言中的( )语句实现。
right_answers: while
114.Python中定义函数的关键字是( )。
right_answers: def
115.Numpy提供了两种基本对象,一种是ndarray,另一种是( )。
right_answers: func
116.创建一个3*3的数组,下列代码中错误的是( )。
- np.arange(0,9).reshape(3,3)
- np.eye(3)
- np.random.random([3,3,3])
- np.mat(“
1,2,3;4,5,6;7,8,9”)
right_answers: np.random.random([3,3,3])
117.Numpy中统计数组元素个数的方法是( )。
right_answers: size
118.Numpy中的diag函数用于创建( )。
right_answers: 对角矩阵
119.Numpy.random模块中用于对一个序列进行随机排序的函数是( )。
- uniform
- shuffle
- permutation
- normal
right_answers: shuffle
120.在NumPy中创建一个元素均为0的数组可以使用( )函数。
- zeros( )
- arange( )
- linspace( )
- logspace( )
right_answers: zeros( )
121.在以下Pandas方法中不能实现实现合并数据的函数是( )。
- agg()函数
- concat()函数
- join()方法
- merge()函数
right_answers: agg()函数
122.设置索引使用哪种方法。( )
- merge()方法
- concat()方法
- to_datetime()方法
- set_index()方法
right_answers: set_index()方法
123.利用下面哪个可视化绘图可以发现数据的异常点。( )
right_answers: 盒图
124.以下关于缺失值检测的说法中,正确的是( )
- null和notnull可以对缺失值进行处理
- dropna方法既可以删除观测记录,还可以删除特征
- fillna方法中用来替换缺失值的值只能是数据框
- Pandas库中的interpolate模块包含了多种插值方法
right_answers: Pandas库中的interpolate模块包含了多种插值方法
125.Matplotlib中的哪个包提供了一批操作和绘图函数?( )
right_answers: pyplot
126.下列参数中调整后显示中文的是( )
- lines.linestyle
- lines.linewidth
- font.sans-serif
- axes.unicode_minus
right_answers: font.sans-serif
127.以下说法错误的是( )
- 饼图一般用于表示不同分类的占比情况。
- 箱线图展示了分位数的位置。
- 散点图无法反映特征间的统计关系。
- 词云对于文本中出现频率较高的关键词予以视觉上的突出。
right_answers: 散点图无法反映特征间的统计关系。
128.以下( )函数可以在绘制图表时,设置x轴的名称。
- xlim()
- ylim()
- xlabel()
- xticks()
right_answers: xlabel()
129.以下哪个函数可以实现画布的创建?( )
- subplots( )
- add_subplot( )
- figure( )
- subplot2grid( )
right_answers: figure( )
130.分析股票你选择用哪种分析方法( )
right_answers: 时间序列
131.在现实世界的数据中,缺失值是常有的,一般的处理方法有( )。
right_answers: 忽略
132.列表是不可变对象,支持在原处修改。( )
right_answers: 0
133.元组是不可变的,不能直接修改元组中元素的值,也不能为元组增删元素。( )
right_answers: 0
134.Python使用lambda创建匿名函数,匿名函数拥有自己的命名空间。( )
right_answers: 1
135.同一个列表中的元素的数据类型可以各不相同。( )
right_answers: 1
136.集合中的元素没有特定顺序但可以重复。( )
right_answers: 0
137.列表推导式在逻辑上等价于一个循环语句,只是形式上更加简洁。( )
right_answers: 0
138.在Python中创建一个空集合,可以直接用 set1={}。( )
right_answers: 0
139.列表、元组和字符串都支持双向索引,有效索引的范围为[-L,L],L为列表、元组或字符串的长度。( )
right_answers: 0
140.列表是包含0个或多个对象引用的有序序列,属于序列类型。( )
right_answers: 1
141.字典是存储可变数量键值对的数据结构,键和值可以是任意类型数据结构。( )
right_answers: 1
142.创建Series时如果指定了index,则只能用index访问数据。 ( )
right_answers: 0
143.Pandas中的apply方法能将函数应用于每一列。( )
right_answers: 1
144.Pandas中数据对象的索引可以随时被修改。( )
right_answers: 0
145.Pandas中数据的重建索引指对索引重新排序而不是修改。( )
right_answers: 1
146.交叉表是一种特殊的透视表,主要用于计算分组频率。( )
right_answers: 1
147.两个索引不一致的series进行算数运算会出错。( )
right_answers: 0
148.Pandas中可以通过行索引或行索引位置的切片形式选取行数据。( )
right_answers: 1
149.Pandas中可以通过query方法查询数据。( )
right_answers: 1
150.Pandas中使用loc和isin两个函数配合使用,按指定条件对数据进行提取。( )
right_answers: 1
151.线性图一般用于描述两组数据之间的趋势。Pandas中的Plot方法默认绘制线形图。( )
right_answers: 1
152.Pandas中使用isnull().sum()可以统计缺失值。( )
right_answers: 1
153.Pandas中的dropna中的thresh=N时表明要求一行有N个NaN值时该数据才能保留。( )
right_answers: 0
154.Pandas中利用merge函数合并数据表时默认的是内连接方式。( )
right_answers: 1
155.Pandas中的描述性统计一般会包括缺失数据。( )
right_answers: 0
156.语句dataframe.dropna(thresh=len(df)*0.9,axis=1) 表示如果某列的缺失值超过90%则删除该列。( )
right_answers: 0
157.利用merge方法合并数据时允许合并的DataFrame之间没有连接键。( )
right_answers: 0
158.哑变量(Dummy Variables)又称虚拟变量,是用以反映质的属性的一个人工变量。( )
right_answers: 1
159.DataFrame的duplicates方法可以用来删除重复数据。( )
right_answers: 0
160.网络关联关系在大数据中是一种常见的关系。( )
right_answers: 1
161.在极坐标投影中,需要以半径和角度的形式定义。( )
right_answers: 1
162.Seaborn的绘图更加便捷美观,是matplotlib的替代。( )
right_answers: 0
163.需要转换默认的Seaborn绘图风格,只需调用有参数设置的set方法。( )
right_answers: 0
164.使用Seaborn中的set_style( ) 设置主题,有5个预设的主题。( )
right_answers: 1
165.热力图实现过程就是将离散的点信息映射为图像。( )
right_answers: 1
166.Seaborn中的relplot方法关注的是统计量之间的关系,利用kind参数设置,可以绘制出曲线图和散点图。( )
right_answers: 1
167.在Seaborn中可以将一个字典参数传递给axes_style()的参数rc进行参数设置。( )
right_answers: 1
168.绘制回归图可以揭示两个变量之间的线性关系。( )
right_answers: 1
169.pyecharts还可以生成地理空间流动图,用来表示航班数量、人口流动等等。( )
right_answers: 1
170.图是一种抽象的数据结构,可以描述最广泛的数据间的关系,如交通网络,微信中的朋友关系网。( )
right_answers: 1
171.时间序列索引方法和Pandas数据的索引是相同的。( )
right_answers: 1
172.时序图就是普通的时间序列图,即以时间为横轴,观察值为纵轴进行检验。( )
right_answers: 1
173.利用时序图可以粗略观察序列的平稳性。( )
right_answers: 1
174.自相关图中横轴表示延迟期数,纵轴表示自相关系数。( )
right_answers: 1
175.ADF(Augmented Dickey-Fuller)法直接通过假设检验的方式来验证平稳性。( )
right_answers: 1
176.Scipy中利用linalg.det计算矩阵的行列式。( )
right_answers: 1
177.回归中利用最小二乘法主要通过最小化误差的平方来寻找一个数据匹配的最佳函数。( )
right_answers: 1
178.稀疏矩阵一般使用普通矩阵来构建。( )
right_answers: 0
179.逻辑回归算法是一种广义的线性回归分析方法,它仅在线性回归算法的基础上,利用Sigmoid函数对事件发生的概率进行预测。 ( )
right_answers: 1
180.尺度不变特征变换SIFT是用于图像处理领域的一种局部特征检测算法。( )
right_answers: 1
181.加速鲁棒特征SURF是一种类似于SIFT并由其启发的特征检测算法。( )
right_answers: 1
182.Python中要使字符串转义字符不转义,则直接在字符串前加字符___。
right_answers: r
183.已知字典dic={‘w’:97,’a’:19},则dic.get(‘w’, None)的值是___。
right_answers: 97
184.字典中的键值对用___分割。
right_answers: :
185.有arr = np.arange(12).reshape(3,4),则arr[(0,1),(1,3)]对应的值是___和___。
right_answers: 1
186.有arr = np.arange(12).reshape(3,4),若定义mask = np.array([1,0,1],dtype = np.bool),则arr[mask,1] 对应的元素是___和___。
right_answers: 1
187.数组转置是数据重塑的一种特殊形式,可以通过___ 方法或数组的T属性实现。
right_answers: reshape
188.创建一个元素为从10到49的ndarray对象d1=___。
right_answers: np.arrange(10,49,1)
189.创建一个4*4的全零矩阵对象d2= ___。
right_answers: np.zeros(4,4)
190.Numpy中的ndarray的size属性返回的是___。
right_answers: 数组元素个数
191.属性shape返回的是___。
right_answers: 数组的维度
192.Numpy中的random模块中的函数shuffle的功能是对一个序列进行___。
right_answers: 随机排序
193.补全计算数组a = np.array([1,2,3,2,3,4,3,4,5,6])和数组b = np.array([7,2,10,2,7,4,9,4,9,8])之间的欧式距离distance的代码。
a = np.array([1,2,3,2,3,4,3,4,5,6]) b = np.array([7,2,10,2,7,4,9,4,9,8]) distance=___
right_answers: np.sqrt(np.sum((a-b)**2))
194.补全从数组np.arange(15)中提取5到10之间的所有数字的代码。
array=np.arange(15) index=np.where((array>=5) & (array<=10)) nums=___
right_answers: array[index]
195.补全从数组np.arange(15)中提取5到10之间的所有数字的代码。
array=np.arange(15) nums=___
right_answers: array[(array>=5) & (array<=10)]
196.补充实现将数组a = np.arange(10).reshape(2,-1)和数组b = np.repeat(1,?10).reshape(2,-1)水平堆叠的代码。
a = np.arange(10).reshape(2,-1) b = np.repeat(1, 10).reshape(2,-1) array=___
right_answers: np.hstack((a,b))
197.补充实现交换数组np.arange(9).reshape(3,3)中的第1列和第2列的代码。
array=np.arange(9).reshape(3,3) array=___
right_answers: array[:,[1,0,2]]
198.补全查找数组np.array([1,2,3,2,3,4,3,4,5,6])中的唯一值的数量的代码。
array=np.array([1,2,3,2,3,4,3,4,5,6]) counts=___
right_answers: np.unique(array,return_counts=True)
199.补全找出数组np.array([1,2,1,1,3,4, 3,1,1,2,1,1,2])中第五个1出现的位置的代码。
array=np.array([1, 2, 1, 1, 3, 4, 3, 1, 1, 2, 1, 1, 2]) loc=___
right_answers: np.argsort(array)[4]
200.补全找到二维数组np.arange(9).reshape(3,3)每一行中的最大值的代码。
array=np.arange(9).reshape(3,3) max_num=___
right_answers: np.max(array,axis=0)
201.补全找出数组np.array([7,2,10,2,7,4,9,4,9,8])中的第二大值的代码。
array=np.array([7,2,10,2,7,4,9,4,9,8]) num=___
right_answers: np.unique(array)[-2]
202.Pandas中与set_index方法相关用于还原索引的方法是___。
right_answers: reset_index
203.Series是一种一维数组对象,包含一个值序列。Series中的数据通过___访问。
right_answers: 索引
204.Series有两种描述某条数据的手段,即___和标签。
right_answers: 位置
205.一个DataFrame对象的属性values和ndim分别指___和 ___。
right_answers: 值
206.reindex方法中的参数method可以取值为‘ffill’和‘bfill’,分别指 ___和 ___。
right_answers: 前向值填充
207.随机抽取数据的语句sample(frac=0.7)中的frac参数的含义是 ___。
right_answers: 抽取数据的比率
208.修改数据中的参数“inplace”的含义是___。
right_answers: 源数据就地修改
209.Pandas的数据对象在进行算术运算时如果存在不同索引会进行数据对齐,但会引入___ 。
right_answers: Nan值
210.Pandas中的applymap方法的作用是___。
right_answers: 函数作用于每个元素
211.Pandas中绘图时可以只用plot方法,具体绘图可以用参数___设置。
right_answers: kind
212.交叉表是一种特殊的透视表,主要用于计算___ 。
right_answers: 分组频率
213.Pandas的plot绘制直方图时,kind取值为___。
right_answers: hist
214.Pandas的plot绘制密度图时,kind取值为 ___。
right_answers: kde
215.Pandas的plot绘制散点图时,kind取值为___。
right_answers: scatter
216.Pandas的plot绘制柱状图时,kind取值为___。
right_answers: bar
217.Pandas中直接删除数据的方法是___。
right_answers: drop
218.Pandas中删除数据时,行列数据通过参数___确定删除的是行还是列。
right_answers: axis
219.DataFrame.replace({‘B’:‘E’,‘C’:‘F’})表示将表中的B替换为___ ,C替换为______。
right_answers: E
220.Pandas通过DataFrame.rename()函数传入需要修改列名的字典形式来修改______。
right_answers: 列名
221.Pandas中的______方法可以根据索引或字段对数据进行分组。
right_answers: groupby
222.Pandas中drop方法中的参数how取值为 ___时表示只要某行有缺失值就将改行丢弃。
right_answers: any
223.Pandas中drop方法中的参数how取值为 ___时表示某行全部为缺失值就将改行丢弃。
right_answers: all
224.Pandas通过read_json函数读取___数据。
right_answers: JSON
225.Pandas要读取Mysql中的数据,首先要安装 ___包,然后进行数据文件读取。
right_answers: Mysqldb
226.Pandas要读取SQL sever中的数据,首先要安装 ___包,然后进行数据文件读取。
right_answers: pymssql
227.在matplotlib里面,可以使用LaTex的命令来编辑公式,只需要在字符串前面加一个字符___即可。
right_answers: r
228.在绘图中,有时候需要同时显示数据表格。Matplotlib在绘图中提供了___方法可以同时显示数据表格。
right_answers: table
229.Matplotlib配置了配色方案和默认设置。有两种方式可以设置参数,即全局参数定制和 ___方法。
right_answers: rc参数设置
230.绘图时可以通过text函数在指定位置加入注释,也可以通过___ 在图中实现带有指向型的文本注释。
right_answers: annotate
231.Matplotlib中绘图时的参数___ 用于设置点的透明度。
right_answers: alpha
232.Seaborn中可以通过___方法移除绘图上方和右方坐标上不需要的边框。
right_answers: despine
233.在Seaborn中使用______方法实现数据特征两两对比的散点图矩阵。
right_answers: pairplot
234.pyecharts中通过___绘制漏斗图。
right_answers: funnel
235.pyecharts中通过___ 绘制K线图。
right_answers: kline
236.pyecharts中通过___ 绘制仪表盘图。
right_answers: gauge
237.pyecharts中通过 ___绘制仪桑基图。
right_answers: sankey
238.___是对于具有多个属性问题的一种可视化方法,其中,数据集的一行数据在平行坐标图中用一条折线表示,
right_answers: 平行坐标图
239.在Pandas中用于创建指定长度的日期型序列的方法是pandas.___方法。
right_answers: data_range
240.datetime类数据是date类和time类的组合。通过___方法可以查看当前系统时间。
right_answers: now
241.可以使用datetime.strptime将字符串转换为___ 。
right_answers: 日期
242.时间序列的重采样是时间序列频率转换的过程,高频率聚合到低频率称为___。
right_answers: 降采样
243.在Pandas中可以通过___方法快速将一列字符串转换为datatime数据。
right_answers: to_datatime
244.Scipy中的___模块包含大量用于科学计算的常数。
right_answers: constants
245.Scipy中的___包提供了集中常用的优化方法。
right_answers: optimize
246.数据___也被称为监督学习,包括学习阶段和分类阶段。
right_answers: 分类
247.___是一种使用线性映射来进行数据降维的方法,它通过去除数据相关性以最大限度保持原始数据的方差信息。
right_answers: PCA
248.在K-Means算法中,由簇的___ 来代表整个簇。
right_answers: 平均值
249.SVM的主要目标是寻找最佳___ ,以便在不同类的数据间进行正确分类。
right_answers: 超平面
250.层次聚类是按照某种方法进行层次分类,主要有______和 ___两类方法。
right_answers: 凝聚
251.___是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。
right_answers: 回归分析
252.DBSCAN算法中的两个参数Eps和Minpts分别指______和______。
right_answers: 邻域最大半径
253.在Python中使用OpenCV需要安装___包。
right_answers: opencv-python
254.OpenCV中利用imshow显示彩色图像时的颜色模式是___模式。
right_answers: BGR
255.下列选项中不能创建Numpy数组的选项是( )。
- a = numpy.array([1,2,3])
- a = numpy.array([1,[1,2,3],3])
- a = numpy.array([[1,2,3],[4,5,6]])
- a = numpy.array([[‘xiao’,’qian’],[‘xiao’,’feng’]])
right_answers: a = numpy.array([1,[1,2,3],3])
256.下列代码运行的结果是( )。
a = numpy.array([1,2,3])
b = numpy.array([4,5,6])
a+b
right_answers: [5,7,9]
257.下列选项中不是矩阵选项的是( )。
right_answers: B
258.下列说法正确的是( )。
- Series对象的结构比DataFrame对象的结构简单
- DataFrame可以看成Series的子集
- sort_index用作索引重建
- HDF4格式文件可以与HDF5文件兼容
right_answers: Series对象的结构比DataFrame对象的结构简单
259.下列说法正确的是( )。
- count函数用于数据中的所有数据
- 统计时使用descript函数,最后结果不会出现min项
- diff表示三阶差分
- var函数用作方差统计
right_answers: var函数用作方差统计
260.下列说法不正确的是( )。
- union用于计算索引的交集
- isin用于数据是否包含在其中
- insert函数可以插入索引
- unique用于计算索引中的唯一数组
right_answers: isin用于数据是否包含在其中
261.创建画布需要使用( )函数。
- figure( )
- add_subplot( )
- Figure( )
- Add_subplot( )
right_answers: figure( )
262.使用( )函数可以将配置文件重置。
- rcdefault( )
- matplotlib_fname( )
- get_configdir( )
- rc_params( )
right_answers: rcdefault( )
263.进行数据的占比比较时使用( )表示。
right_answers: 饼状图
264.在绘制图形是需要使用( )对x轴数据范围进行限制 。
- xlim( )
- xticke( )
- legend( )
- show( )
right_answers: xlim( )
265.a = numpy.array([[1,2,3],[4,5,6]])下列选项中可以选取数字5的索引的是( )。
- a[1][1]
- a[2][2]
- a[1,1]
- a[2,2]
right_answers: a[1][1]
266.(多选题)下列说法不正确的是( )。
- 处理数据缺陷时经常会使用dropna将缺陷数据清除
- isnull判断数据是否为空
- Pandas不能读取csv文本
- Pandas能够读取word文件
right_answers: Pandas不能读取csv文本
267.Numpy的主要数据类型是_________,用于计算的主要数据类型是_________。
right_answers: ndarray数据类型
268.使用_________、_________函数可以创矩阵。
right_answers: mat
269.读取数据库的操作有_______、_________、_________。
right_answers: read_sql_table
270.处理数据缺陷的常用方法______、_________、_________。
right_answers: dropna
271.重建索引使用的函数_________。
right_answers: reindex
272.Numpy中reshape( )函数主要作用是?
right_answers: 重置数组的形状
273.ones函数的主要作用?
right_answers: 创建一个全部参数为1的数组
274.本章主要讲述的Pandas数据的基本类型是?
right_answers: Frame和Series
275.统计过程中常用的手段有哪些?
right_answers:
(1)使用unique进行唯一性判断
(2)使用value_count进行次数统计
(3)使用isin进行成员资格检查
276.简单描述Matplotlib的绘图流程?
right_answers:
步骤1:绘制画布
步骤2:添加子图并绘制图形
步骤3:规定x,y轴及相关标签
步骤4:保存图片或者显示
内容来源互联网
你还在担心期末复习没有题目做?爬虫帮帮你
加油!
感谢!
努力!
|