中国在2015年3月正式出台了《中国制造2025》,作为新 轮工业命的指导纲要, 将工业化与( ) "两化” 深度融合发展作为主线。 A、自动化 B、科技化 C、信息化 D、效率化
在工业大数据和智能制造领域,“互联网 +”的基础是 A、服务业 B、金融业 C、制造业 D、工业
首先提出了工业互联网的概念的是( ) ? A、门子 B、通用电气 C、微软 D、波音公司
4 [单选题]就大数据的数量而言,制造业的数据产生数远远超过其他行业,且可被接入的设备数量也远超移动互联网,这句话所揭露的本质问题是什么? A、这是工业大数据发 展的机遇 B、工业大数据数量多 C、工业大数据可被接入的设备数量多 D、其它行业大数据数量少
5 [单选题]以下那个不属于大数据与制造之间关系的3个重要元素() A、问题 B、数据 C、知识 D、时间 ?
6 [单选题]利大数据建立产品服务系统,要从( )求的缺C出发 A、知识 B、数据 C、装备 D、用户
7 [单选题]业大数据的连接关系集中在产品、( )和数据三个方面 A、顾客 B、计算 C、厂商 D、IT部门
8 [单选题]物联网、信息通信技术以及( ) 等相关技术是"工业4.0”的基础。 A、物理信息 B、工 业自动化 C、智能制造 D、大数据分析
9 [判断题]模拟大数据是指工程(虹业系统产生)和环境数据(如射频、光和温度数据以及自宇宙形成至今产生的数据),也就通常所说的建模?
×
1 0 [判断题] 工业大数据对预测和分析结果的容错率远远比互联网大数据低得多。
√ 1 [单选题]文件输入节点坏支持从下列哪种文件获取数据作为数据挖掘分析的数据源( ) A、txt文件 B、Excel文件 C、csv文件 D、pdf文件 ?
2 [单选题]从HIVE数据表tab1中查询10条数据的指令是( ) A、SELECT DATA * FROM tab1 LIMIT 10 B、SELECT HIVE * FROM tab1 UMIT 10 C、SELECT * FROM tab1 TOP 10 D、SELECT * FROM tab1 LIMIT 10 ?
3 [单选题]公更换了设备,现在需要分析新老设备的性能。那么需要将近五年的数据进行时间维度的筛选,前四年的数据作为一个数据集,年更换设备的数据作为另一个数据集。这种针对时间维度的数据操作属于( ) A、数据过滤 B、数据排序 . C、数据融合 D、数据拆分
4 [单选题] 国家电网的变电箱中会实时记录每户家庭的用电量,数据会实时同步到国家电网工业大数据库中,数据分析者按地区、按每天的小时分析出某地区每小时的用电量排在前50的家庭。可以用 下列哪种数据分析方法? ( ) A、数据过滤 B、数据排序 C、数据追加 D、数据拆分 ?
5 [单选题]胪可使用缺失值处理节点对存在缺失值的变量进行填充,具体按照数据类型的不同,可选择多种方式进行变量的缺失值替换,针对数值型提供的默认处理方式是( ) A、最小值 B、最大值 C、平均值 D、中位数 ?
[单选题]下列有关"HIVE输入和输出”述说正确的是( ) A、户可在HIVE输出节点的 "SQL 编辑器”中编辑SQL操作语句将HIVE数据写入数据库。 B、用户可在HIVE输入节点的 "SQl 编辑器”中编辑SQL查询语句读取HIVE数据源数据。 C、用户可在HIVE输出节点的 "SQL 编辑器”中编辑SQL查询语句读取HIVE数据源数据。 D、用户可在HIVE输入节点的 "SQL 编辑器”中编辑SQL操作语句将HIVE数据写入数据库。 ?
7 [判断题]若数据集拆分为训练集和测试集,需要指定拆分后的2个数据集样本数占拆分前数据集样本数的比例,且这2个比例的和必须为100%。×
8 [判断题]异常值检测节点的检测方式有“基于四吩位距”和“自义异常检测公式”, 两种检测方式,要均需输入"检测公式”×
9 [判断题]胪可使用数据排序节点进行数据行的排序,排序算法实现对单个字段或多个字段组合的升序或降序排序。√
1 0 [判断题] 选择"属性过滤”节点中的”保留属性”,则选到右边的列是保留下来的属性,未被选中的变量列将被删除掉不再输出。√
1 [单选题]实现特征属性生成的节点是( ) A、属性生成节点 B、主成分分析节点 C、因子分析节点 D.分箱节点
2 [单选题] ( ) 常用于社会科学市场调研和使用大型数据集的其他行业,来从大数据集形成较小数量的不相关变量。 A、分箱 B、属性生成 C、主城分分析 D、因子分析
3 [单选题] ( ) 是一种非常有用的多变分析技术,通常用来研究没有因和自之分的一组变量之间的关系。 A、分箱 B、属性生成 C、主城分分析 D、因子分析
4 [单选题] ( )是从原始变量中选出一些最有效变量以降低数据集维度,于提高学习算法性能。 A、量转换 B、变量集成 C、分类 D、变量选择
5 [单选题] ( )是对原始数据进行 列工程处理,将其提炼为特征,作为 输入供算法和模型使用的过程。 A、数据挖掘 B、特征工程 C、数据清洗 D、机器学习
6 [单选题] "分箱” 点中的选择分箱的方式的下拉列表是( ) A、分箱方式 B、采样方式 C、转换方式 D、合并方式 ?
7 [判断题]属性生成的功能主要对属性进行标准化。×
8 [判断题] 子分析通常用来研究没有因变量和自量之分的一组量之间的关系。√
[判断题]分箱可根据指定段的特定分箱方式新生成具有划分类别的一个或多个新字段。√
[判断题]在变量选择节中不能选择响应量。×
1 [单选题]典型相关分析是研究几组变量之间相关关系的一种多元统计分析方法? ( ) A、1 B、2 C、3 D、10 2 [单选题]在相关分析节点中,洞察最多只支持展示多少个变量间 的相关关系矩阵? A、1 B、10 C、4 D、 40 3 [单选题]统计指标中的方差分析又被称为什么? ( ) A、标准差分析 B、变异数分析 C、统计分析 D、数值分析 ?
4 [单选题]工业大数据分析是利用相关技术手段 ,结合业务知识对工业过程中产生的数据进行处理、计算、分析并提取其中有价值的信璁,规律的过程。下列哪种技术不是 工业大数据分析使用的技术?() A、信号处理技术 B、机器学习技术 C、量子信息技术 D、统计学分析技术
5 [判断题]差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。√
6 [判断题] 均值是一组数据集中位置最有用的统计特征量, 经常用样本的算数平均值来代表总体的平均水平√
7 [判断题]在一组数据中,按其大次序排序以排在正中间的一个数表示总体的平均水平,称之为中位数,√
[判断题]众数是指一组数据中,出现次数最多的变量值。√
众数一定是平均值。×
1 0 [判断题] 极差亦称为全距或误差范围,它是测定数据中最大值与最小之差,说明数据的伸展情况。√
1 [单选题] 散点图通常用来呈现什么样的数据? A、没有相关性的数据。 B、通过点阵展现趋势、 集群、模式及相关性数据 C、变量之间没有关系的数据。 D、变量和数据量都比较小的数据:
2 [单选题]在散点图中,可以看出变量Y隨着变量X的增加而增加, 且散点没有落在一线上,则变量X和Y的关系是( )。 A、正相关 B、负相关 C、完全正相关 D、完全负相关
3 [单选题]下列哪个表述直防图的说法是错误的( )。 A、标准型 B、锯齿型 C、偏高型 D、陡壁型 ?
4 [单选题]方图与形图的区别之一是( )。 A、.直方图的各矩形通常 是连续排列的,而条形图则是分开排列的 B、条形图的各矩形通常是连续排列的 ,而直方图则是分开排列的 C、直方图主要用于描述分类数据 ,条形图则主要用于描述数值型数据 D、直方图主要用于描述各类别数据的多少 ,条形图则主要用于描述数据的分布形图则主要用于描述数据的分布
5 [单选题]折线图通常适合用于使用哪种类型的数据? A、空间数据 B、时序数据 C、分类数据. D.离散数据
6 [判断题]如果散图上的点形成了一个圆,那么它们有一个度负相关。( )× 7 [判断题]灰度直图能反映一幅图像各灰度级像元占图像的面积比√
8 [判断题]在正交试验的直观分析中,所有因素的趋势图都用折线图表示。×
g [判断题] 折线图很适合用来表现在相等时间间隔下数据的趋势。 10[判断题]图表类型主要有折线图、柱状图和波形图三种。×
?1 [单选题]在线性回归算法节点中,下列哪个参数不是线性回归 参数的基本选项? A、正则化参数 B、求解算法 C、惩罚函数类型 D、最大深度
2 [单选题]对于时间序列,下面说法错误的是? A、列是按时间顺序排列的 B、序列是进行动态分析的基础 C、序列是按数值大小顺序排列的 D、编制时应注意数值间的可比性 ?
3 [单选题]影响基本K-均值算法的主要因素不包括? A、样本输入顺序 . B、模式相似性测度 C、聚类准则 D、初始类中心的选取 ?
4 [单选题]那个不能看作集成学习的学习策略 A、平均法 B、推举法 C、混合专家 D、抽样法 ?
5 [单选题]以下哪个算法是分类算法? A、DBSCAN B、C4.5 C、K-Mean D、EM ?
6 [单选题]分类叉验证节点中,假设指定验证次数为10 ,最终会 得到几个分类模型? A、1 B、9 C、10 D、11 ?
7 [判断题]最小乘法是解决线性回归问题的算法。√
8 [判断题]时间序列中的数值都有可加性。× 9 [判断题]在聚类粉析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。×
10 [判断题] Boosting是一 组可将弱学习器提升为强学习器的算法。√
1 [单选题] Python编程节点属于要素库里的哪类要素( ) A.数据管理 B、机器学习 C、自动学习 D.扩展编程
2 [单选题] Python编程节点中获取输入数据的方法是( ) A、getInPortValue B、setOutPortValue C、setNodeInsight D、viewDFInsight
3[ 单选题] Python编程节点的输入端口可以有的数据集个数为() A、1个 B、2个 C、3个 D、1个或多个.
4 [单选题]根据要素库的分类, SQL编程节点属于要素库中的哪类?() A、扩展编程 B、统计分析 C、数据处理 D、数据融合
5 [单选题] SQL扩展编程数据处理中, SQL编辑节点的输出端口是() A、一个数据集 B、多个数据集 C、一个文本文件 D、可以是任意形式的结果文件
6 [单选题] SQl编程节点配置界面的"SQl 编辑器”中输入的SQL 语句形式可以是( ) A、insert询 B、update语句 C、delete语句 D、select语句
7 [单选题] SQL扩展编程数据处理, SQL编程节点配置界面中"检 测”的功能是() A、检测输入 端口是否有数据集 B、检测输出端口是产生数据集 C、检测SQL语句是否执行成功 D、检测SQL编辑节点是否有异常
8 [判断题] Python编程节点不连接要素库中其它节点,可以实现扩展编程数据处理。× 9 [判断题]将文本文件加载到文件输入节点中,再将文件输入节点连接python编程节点,可以实现Python扩展编程数据处理。√
10 [判断题] 在SQL编程节点的SQL编辑器中输入SQL语句时,如果是中文字段,需要对中文字段添加单弓号或反引号。√
1 [单选题] 模型评估中AP表示什么( ) A、平均准确率 B、每个分类的平均准确率 C、召回率 D、准确率
2 [单选题]下列关于模型评价指标的表述错误的是( ) A、准确率、 精确率、召回率以及AUC都是建立在混淆矩阵的基础上 B、在样本不平衡的条件 下准确率并不能作为很好的指标来衡量结果 C、准确率表示所有 被预测为正的样本中实际为正的样本的概率 D、一 般来说,置信度阈值越高,召回率越低,而精确率越高
3 [单选题]分类模型有什么作用? ( ) A、预测实数响应 ,例如温度,日期或时间变化 B、将数据分配给预定 义的类别 C、根据相似度将响应分组在一 起,以找到模式 D、将预测的数据分类与数据中的实际类别标签进行比较
4 [单选题] kMeans算法中,第一个循环是如何操作的 ( ) A、计算聚类中心和聚类中心间的距离 B、计算样本 与样本之间的距离 C、计算所有样本到各个聚类中心的距离并判断归属 D、以上都不对
5 [单选题]时间序列模型通常用于哪些方面预测( ) A、长期预测 B、新产品需求预测 C、对较大投 资举措的前景预测 D、中短期预测
6 [判断题]线性回归假设目标值与特征之间线性相关,即满足一个远二次方程。×
7 [判断题]归分析通常使用曲线/线来拟合数据点,目标是使曲线 到数据点的距离差异最小。 8 [判断题]在进行线性回归分析时,可以找到縝线,全拟合所有数据点。×
9 [判断题]聚类( clustering )这样的过程:它找出描述并区分数据类或概念的模型(或函数) ,以便能够使用模型预测类标记未知的对象类。×
1 0 [判断题] 时间序列预测法的步骤是;编制时间列分析时间列-构建数学模型-预测。√
下
?
|